會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    精選9.9元!    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當前位置:首頁 > 機翻技術(shù) > 識別技術(shù) > 正文

發(fā)音變異的決策樹模型

發(fā)布時間: 2022-07-04 09:20:30   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 決策樹只提取相關(guān)的特征,所以數(shù)據(jù)稀疏問題比含混矩陣少一些,因為含混矩陣要以每個相鄰的音子作為條件。


使用概率來模擬發(fā)音變異可以增強手寫規(guī)則的效率。Riley(1991)和Withgott and Chen(1993) 提出了另一種手工書寫規(guī)則的方法,這種方法被證明是很有用的。這種方法使用決策樹(decision tree),特別是使用一種分類回歸樹(Classification and Regression Tree,簡稱CART),從標注語料庫中自動推導出詞匯到表層發(fā)音的映射關(guān)系(Breiman et al.,1984)。決策樹提取由特征集所描述的情況,并把這種情況分類為范疇和相關(guān)的概率。在發(fā)音問題研究中,可以訓練決策樹來提取一個詞匯音子和它的各種上下文特征(包圍的音子、重音、音節(jié)結(jié)構(gòu)信息以及詞匯的等同性),并選擇一個適合的表層音子來實現(xiàn)它。我們可以把在前面的錯拼更正中使用的含混矩陣看成是一種蛻化的決策樹,因此替代矩陣取一個詞匯音子作為輸入,然后輸出在潛在的表層音子中的一個概率分布來替代這個詞匯音子。決策樹的優(yōu)點是它可以從標注語料庫中自動推導出來,而且都很精確。決策樹只提取相關(guān)的特征,所以數(shù)據(jù)稀疏問題比含混矩陣少一些,因為含混矩陣要以每個相鄰的音子作為條件。


例如,圖1是根據(jù)Switchboard語料庫得出的關(guān)于音位/t/發(fā)音的一個決策樹。這個決策樹不包括閃音化(閃音化由另外的決策樹來描述),但是它模擬/t/在輔音前比在元音前更可能脫落的事實。注意,實際上這個決策樹自動推導出了元音類和輔音類。另外還要注意,如果/t/沒有在一個輔音前面脫落,它就很可能是沒有除阻的。最后還要注意,/t/很容易在音節(jié)頭的位置脫落。


對于發(fā)音的決策樹模型有興趣的讀者,可以參閱Riley(1991)和Withgott and Chen(1993),也可以參閱關(guān)于決策樹的導論性教材,如Russell and Norvig(1995)。


1.png

圖1 


圖1 根據(jù)Switchboard語料庫得出的關(guān)于音位/t/發(fā)音的經(jīng)過手工修剪的決策樹(由Eric Fosler-Lussier提供)。這個特殊的決策樹沒有模擬閃音化,因為閃音已經(jīng)在詞典中列出了。這個決策樹能夠自動推導出元音和輔音范疇。我們在每個葉子結(jié)點上只列出了最可能的實現(xiàn)情況。


責任編輯:admin


微信公眾號

我來說兩句
評分: 1分 2分 3分 4分 5分
評論內(nèi)容:
驗證碼:
【網(wǎng)友評論僅供其表達個人看法,并不表明本站同意其觀點或證實其描述?!?
評論列表
已有 0 條評論(查看更多評論)