- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
對于上下文無關(guān)語法的最簡單的提升就是概率上下文無關(guān)語法(PCFG),這種語法又稱為隨機(jī)上下文無關(guān)語法(Stochastic Context-Free Grammar,簡稱SCFG),這種語法最早是由Booth(1969)提出來的。
我們知道,上下文無關(guān)語法G是由四個(gè)參數(shù)(N,E,P,S)來定義的:
1. 非終極符號(或變量)的集合N
2. 終極符號的集合Σ(與N不相交)
3. 產(chǎn)生式的集合P,每個(gè)產(chǎn)生式的形式為A→β,其中A是單個(gè)的非終極符號,β是從無限的符號串(Σ U N)*中的符號構(gòu)成的符號串
4. 指定的初始符號S
概率上下文無關(guān)語法給產(chǎn)生式P中的每個(gè)規(guī)則都加上了一個(gè)條件概率,從而增強(qiáng)了這些規(guī)則:
A→β [p] (12.1)
這樣,PCFG就是一個(gè)五元組G=(N,E,P,S,D),其中D的功能是給P中的每個(gè)規(guī)則指派一個(gè)概率。這個(gè)功能表示,把給定的非終極符號p展開為符號序列β時(shí)的概率,這個(gè)概率通常表示為:
P(A→β)
或者表示為:
P(A→β|A)
從形式上講,這是對于給定的左手邊的非終極符號A進(jìn)行給定的展開時(shí)的條件概率。因此,如果我們考慮一個(gè)非終極符號的所有可能展開,它們的概率之和就必定等于1。圖1中英語的一個(gè)微型語法的PCFG樣本,其中只有三個(gè)名詞和三個(gè)動(dòng)詞。注意,一個(gè)非終極符號的一切可能展開概率的總和為1。顯而易見,在真實(shí)的語法中,每個(gè)非終極符號存在著比這多得多的規(guī)則,因此任何特定規(guī)則的概率都比這個(gè)微型語法中的規(guī)則的概率小一些。
圖1 英語微型語法和詞表用概率增強(qiáng)后形成的PCFG。這些概率不是從語料庫統(tǒng)計(jì)出來的,只是為了說明這種語法而編出來的
怎樣來使用這些概率呢?PCFG可以用來估計(jì)關(guān)于一個(gè)句子及其剖析樹的有用概率的數(shù)量。例如,一個(gè)PCFG可以對于一個(gè)句子S的每個(gè)剖析樹T(也就是每個(gè)推導(dǎo)結(jié)果)都指派一個(gè)概率。PCFG的這個(gè)性質(zhì)在歧義消解(disambiguation)中是非常有用的。例如,我們來研究歧義句子Can you book TWA flights的兩個(gè)剖析結(jié)果。一個(gè)意思是Can you book flights on behalf of TWA(你能以TWA公司的名義預(yù)訂飛機(jī)票嗎?),另一個(gè)意思是Can you book flights run by TWA(你能預(yù)訂TWA公司經(jīng)營的飛機(jī)票嗎?),這兩個(gè)剖析樹如圖2所示。
圖2 歧義句子的兩個(gè)剖析樹。剖析樹(a)對應(yīng)的意思是Can you book flights on behalf of TWA,剖析樹(b)對應(yīng)的意思是Can you book flights which are run by TWA