當(dāng)前位置：首頁 > 機(jī)翻技術(shù) > 識別技術(shù) > 正文

語音識別的總體結(jié)構(gòu)

發(fā)布時間： 2022-07-17 09:45:31 作者：etogether.net 來源：網(wǎng)絡(luò) 瀏覽次數(shù)：

7.4.png

可以用式（7.4）來替換式（7.3）中的有關(guān)項，得到：

7.5.png

式（7.5）中右側(cè)的大部分概率與概率P(WIO)相比更容易計算。例如，P(W)是單詞串本身的先驗概率，我們可以根據(jù)N元語法的語言模型進(jìn)行估計。下面將會看到，P(OIW)也很容易估計出來。但是，聲學(xué)觀察序列的概率P(O)卻很難估計。不過，幸運(yùn)的是，我們可以忽略P(O)。為什么呢？因為我們現(xiàn)在要對所有可能的句子求最大值，我們將對語言中的每個句子計算式1.png 。但是每個句子的P(O)是不會改變的！因為對于每個潛在的句子，我們總是要檢查同樣的觀察O，而觀察都有同樣的概率P(O)。因此，我們有：

7.6.png

總的來說，對于給定的某個觀察O，具有最大概率的句子W可以用每個句子的兩個概率的乘積來計算，并且選乘積最大的句子為所求的句子。這兩個術(shù)語的名稱如下：P(W)是先驗概率，稱為語言模型(language model)；P(OIW)是觀察似然度，稱為聲學(xué)模型（acoustic model)。

7.7.png

首先，為了簡化起見，我們假定輸入序列是一個音子序列F，而不是一個聲學(xué)觀察序列。向前算法對于給定的音子序列的觀察，能夠產(chǎn)生出對于給定單詞的這些音子的觀察概率。我們將說明，這樣的概率音子自動機(jī)實際上是隱馬爾可夫模型（HMM）的一種特殊情況，并且也將說明如何擴(kuò)充這個模型，使之對于給定的一個完整句子能夠給出音子序列的概率。

然而，正如我們說過的，向前算法遇到的一個問題是：為了發(fā)現(xiàn)哪個單詞是最可能的單詞（即“解碼問題”），需要對每個單詞再次運(yùn)行向前算法。對于句子來說，要這樣做顯然是行不通的，因為無法對英語中的每個可能的句子都分別運(yùn)行向前算法。因此，這里介紹兩種不同的算法，對于給定的句子，它們能同時計算出觀察序列的似然度，并且給出最可能的句子。這兩種算法是Viterbi算法和A*解碼算法。

對于一個包含音子串的簡化輸入，當(dāng)我們解決了似然度的計算和解碼問題之后，將說明如何把同樣的算法應(yīng)用于真實的聲學(xué)輸入而不是事先定義好的音子。為此，我們將簡短地介紹聲學(xué)輸入和特征抽出（feature extraction）。所謂特征抽出，就是從輸人的聲波中提取有意義的特征的過程。然后，我們將介紹從這些特征中計算音子概率的兩個標(biāo)準(zhǔn)模型：高斯模型和神經(jīng)網(wǎng)絡(luò)模型（neural net model）。神經(jīng)網(wǎng)絡(luò)模型又稱多層感知器模型（multi-layer perceptron model）。

最后，我們將介紹訓(xùn)練隱馬爾可夫模型的標(biāo)準(zhǔn)算法和音子概率估計算法，向前-向后算法或Baum-Welch算法（Baum,1972），期望最大算法（Expectation-Maximization algorithm，或稱EM算法）的一種特殊情況（Dempster et al.,1977）。

圖2是語音識別系統(tǒng)的各個組成部分的大致輪廓。圖中說明，一個語音識別系統(tǒng)可以分為三個階段：信號處理階段（signal stage）、音子階段（phone stage）和解碼階段（decoding stage）。信號處理階段又稱為特征抽取階段，在這個階段，語音的聲學(xué)波形切分為音片框架（通常是10ms，15ms或20ms），把音片框架轉(zhuǎn)換成聲譜特征，聲譜特征要給出不同頻度的信號的能量大小的信息。音子階段又稱為亞詞階段（subword stage），在這個階段，我們使用諸如神經(jīng)網(wǎng)絡(luò)或高斯模型這樣的統(tǒng)計技術(shù)，嘗試識別如p或b這樣的單個語音。對于神經(jīng)網(wǎng)絡(luò)，這個階段的輸出是對于每個音片的音子的概率矢量，例如，對于某個音片，[p]的概率是0.8，[b]的概率是0.1，[f]的概率是0.02，等等；對于高斯模型，概率與此稍有不同。最后，在解碼階段，我們利用單詞發(fā)音詞典和語言模型（概率語法），采用Viterbi算法或A*解碼算法發(fā)現(xiàn)對于給定聲學(xué)事件具有最大概率的單詞序列。

責(zé)任編輯：admin

[上一頁][1] [2] 【歡迎大家踴躍評論】

上一篇：A*解碼算法應(yīng)用于語音識別系統(tǒng)
下一篇：Viterbi算法在語音識別中的應(yīng)用

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

評分：	1分 2分 3分 4分 5分
評論內(nèi)容：
驗證碼：
【網(wǎng)友評論僅供其表達(dá)個人看法，并不表明本站同意其觀點(diǎn)或證實其描述?！?

語音識別的總體結(jié)構(gòu)

相關(guān)機(jī)器翻譯技術(shù)文章

免費(fèi)在線翻譯

翻譯機(jī)

外語書籍

行業(yè)文章

人工翻譯