會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機(jī)版!    精選9.9元!    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 識別技術(shù) > 正文

語音識別的總體結(jié)構(gòu)

發(fā)布時間: 2022-07-17 09:45:31   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):



7.4.png



可以用式(7.4)來替換式(7.3)中的有關(guān)項,得到:


7.5.png


式(7.5)中右側(cè)的大部分概率與概率P(WIO)相比更容易計算。例如,P(W)是單詞串本身的先驗概率,我們可以根據(jù)N元語法的語言模型進(jìn)行估計。下面將會看到,P(OIW)也很容易估計出來。但是,聲學(xué)觀察序列的概率P(O)卻很難估計。不過,幸運(yùn)的是,我們可以忽略P(O)。為什么呢?因為我們現(xiàn)在要對所有可能的句子求最大值,我們將對語言中的每個句子計算式1.png。但是每個句子的P(O)是不會改變的!因為對于每個潛在的句子,我們總是要檢查同樣的觀察O,而觀察都有同樣的概率P(O)。因此,我們有:


7.6.png


總的來說,對于給定的某個觀察O,具有最大概率的句子W可以用每個句子的兩個概率的乘積來計算,并且選乘積最大的句子為所求的句子。這兩個術(shù)語的名稱如下:P(W)是先驗概率,稱為語言模型(language model);P(OIW)是觀察似然度,稱為聲學(xué)模型(acoustic model)。


7.7.png


首先,為了簡化起見,我們假定輸入序列是一個音子序列F,而不是一個聲學(xué)觀察序列。向前算法對于給定的音子序列的觀察,能夠產(chǎn)生出對于給定單詞的這些音子的觀察概率。我們將說明,這樣的概率音子自動機(jī)實際上是隱馬爾可夫模型(HMM)的一種特殊情況,并且也將說明如何擴(kuò)充這個模型,使之對于給定的一個完整句子能夠給出音子序列的概率。


然而,正如我們說過的,向前算法遇到的一個問題是:為了發(fā)現(xiàn)哪個單詞是最可能的單詞(即“解碼問題”),需要對每個單詞再次運(yùn)行向前算法。對于句子來說,要這樣做顯然是行不通的,因為無法對英語中的每個可能的句子都分別運(yùn)行向前算法。因此,這里介紹兩種不同的算法,對于給定的句子,它們能同時計算出觀察序列的似然度,并且給出最可能的句子。這兩種算法是Viterbi算法和A*解碼算法。


對于一個包含音子串的簡化輸入,當(dāng)我們解決了似然度的計算和解碼問題之后,將說明如何把同樣的算法應(yīng)用于真實的聲學(xué)輸入而不是事先定義好的音子。為此,我們將簡短地介紹聲學(xué)輸入和特征抽出(feature extraction)。所謂特征抽出,就是從輸人的聲波中提取有意義的特征的過程。然后,我們將介紹從這些特征中計算音子概率的兩個標(biāo)準(zhǔn)模型:高斯模型和神經(jīng)網(wǎng)絡(luò)模型(neural net model)。神經(jīng)網(wǎng)絡(luò)模型又稱多層感知器模型(multi-layer perceptron model)。


最后,我們將介紹訓(xùn)練隱馬爾可夫模型的標(biāo)準(zhǔn)算法和音子概率估計算法,向前-向后算法或Baum-Welch算法(Baum,1972),期望最大算法(Expectation-Maximization algorithm,或稱EM算法)的一種特殊情況(Dempster et al.,1977)。


圖2是語音識別系統(tǒng)的各個組成部分的大致輪廓。圖中說明,一個語音識別系統(tǒng)可以分為三個階段:信號處理階段(signal stage)、音子階段(phone stage)和解碼階段(decoding stage)。信號處理階段又稱為特征抽取階段,在這個階段,語音的聲學(xué)波形切分為音片框架(通常是10ms,15ms或20ms),把音片框架轉(zhuǎn)換成聲譜特征,聲譜特征要給出不同頻度的信號的能量大小的信息。音子階段又稱為亞詞階段(subword stage),在這個階段,我們使用諸如神經(jīng)網(wǎng)絡(luò)或高斯模型這樣的統(tǒng)計技術(shù),嘗試識別如p或b這樣的單個語音。對于神經(jīng)網(wǎng)絡(luò),這個階段的輸出是對于每個音片的音子的概率矢量,例如,對于某個音片,[p]的概率是0.8,[b]的概率是0.1,[f]的概率是0.02,等等;對于高斯模型,概率與此稍有不同。最后,在解碼階段,我們利用單詞發(fā)音詞典和語言模型(概率語法),采用Viterbi算法或A*解碼算法發(fā)現(xiàn)對于給定聲學(xué)事件具有最大概率的單詞序列。


2.png



責(zé)任編輯:admin


微信公眾號

[上一頁][1] [2] 【歡迎大家踴躍評論】
我來說兩句
評分: 1分 2分 3分 4分 5分
評論內(nèi)容:
驗證碼:
【網(wǎng)友評論僅供其表達(dá)個人看法,并不表明本站同意其觀點(diǎn)或證實其描述?!?
評論列表
已有 0 條評論(查看更多評論)