- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
由于概率上下文無(wú)關(guān)語(yǔ)法是上下文無(wú)關(guān)語(yǔ)法的自然擴(kuò)充,這樣的語(yǔ)法在概率估計(jì)方面會(huì)出現(xiàn)一些問(wèn)題。正因?yàn)檫@些問(wèn)題,所以當(dāng)前大多數(shù)概率剖析模型都使用某些增強(qiáng)了的PCFG,而不使用普通的PCFG。在此,總結(jié)PCFG在模擬結(jié)構(gòu)依存(structural dependency)和模擬詞匯依存(lexical dependency)中的問(wèn)題。
PCFG的一個(gè)問(wèn)題來(lái)自基本的獨(dú)立性假設(shè)(independence assumption)。根據(jù)定義,CFG假定任何一個(gè)非終極符號(hào)的展開(kāi)與任何其他非終極符號(hào)的展開(kāi)是獨(dú)立的。這種獨(dú)立性假設(shè)也帶到了PCFG中;每個(gè)PCFG規(guī)則被假定為獨(dú)立于其他每個(gè)規(guī)則,這樣,規(guī)則的概率才能相乘。然而,英語(yǔ)句法統(tǒng)計(jì)檢查的結(jié)果說(shuō)明,有時(shí)一個(gè)結(jié)點(diǎn)展開(kāi)的選擇取決于該結(jié)點(diǎn)發(fā)在剖析樹(shù)中的位置。例如,我們來(lái)研究代詞與實(shí)詞名詞短語(yǔ)在句子中的不同位置的分布情況。從Kuno(1972)開(kāi)始,很多語(yǔ)言學(xué)家指出,在英語(yǔ)中(在很多其他語(yǔ)言中也是如此)存在著一個(gè)強(qiáng)烈的傾向:一個(gè)句子的句法主語(yǔ)往往是代詞(Givon,1990)。代詞是談?wù)撆f信息的一種手段,而非代詞(實(shí)詞性)的名詞或名詞短語(yǔ)往往用
來(lái)引入新信息。例如,F(xiàn)rancis等人指出,在Switchboard語(yǔ)料庫(kù)的31021個(gè)陳述句的主語(yǔ)中,91%都是代詞,參見(jiàn)例句(12.15a),只有9%是實(shí)詞性的名詞或名詞短語(yǔ),參見(jiàn)例句(12.15b)。反之,在7489個(gè)賓語(yǔ)中,只有34%是代詞,參見(jiàn)例句(12.16a),而66%是實(shí)詞性的名詞或名詞短語(yǔ),參見(jiàn)例句(12.16b)。
(a) She's able to take her baby to work with her. (12.15)
(b) Uh, my wife worked until we had a family.
(a) Some laws absolutely prohibit it. (12.16)
(b) All the people signed confessions.
通過(guò)規(guī)則NP→Pronoun,我們可以把NP展開(kāi)為代詞,通過(guò)規(guī)則NP→Det Noun,我們可以把NP展開(kāi)為實(shí)詞性名詞或名詞短語(yǔ)。如果NP展開(kāi)為代詞對(duì)應(yīng)于NP展開(kāi)為實(shí)詞性名詞或名詞短語(yǔ)的概率取決于NP究竟是主語(yǔ)還是賓語(yǔ),那么,我們就可以捕捉到這樣的依存關(guān)系,然而這種概率依存關(guān)系恰恰是PCFG所不允許的。
PCFG更重要的問(wèn)題是這種語(yǔ)法缺乏對(duì)單詞的敏感性。PCFG中的詞匯信息只能通過(guò)前終極結(jié)點(diǎn)(Verb, Noun, Det)展開(kāi)為單詞的概率來(lái)表示。但是,還有一些其他詞匯依存關(guān)系對(duì)于句法概率的模擬也很重要。例如,一些研究者指出,在選擇有歧義的介詞短語(yǔ)附著的正確剖析時(shí),詞匯信息就起著重要作用(Ford et al.,1982; Whittemore et al.,1990; Hindle and Rooth,1991;et al.)。我們來(lái) 研究來(lái)自Hindle and Rooth(1991)的例子:
Moscow sent more than 100, 000 soldiers into Afghanistan .…. (12.17)