機械分詞方法

發(fā)布時間： 2022-12-12 09:21:54 作者：etogether.net 來源：網(wǎng)絡瀏覽次數(shù)：

摘要: 最大匹配優(yōu)先切分長度較長的詞，最小匹配優(yōu)先切分長度較短的詞，這幾種方法相互結(jié)合，就構(gòu)成了以下幾種常見的機械分詞方法。

機械分詞方法指的是主要依據(jù)詞典信息，而不使用規(guī)則知識和統(tǒng)計信息，按一定的策略將漢字串與詞典中的詞逐一匹配；如果匹配成功，一就加以切分。按照掃描方向的不同，機械分詞方法可以分為正向匹配和逆向匹配；按照不同長度詞的優(yōu)先情況，可以分為最大匹配和最小匹配。最大匹配優(yōu)先切分長度較長的詞，最小匹配優(yōu)先切分長度較短的詞。這幾種方法相互結(jié)合，就構(gòu)成了以下幾種常見的機械分詞方法。

第一、機械分詞方法簡介

1. 正向最大匹配

用MAXL表示最大詞長，按照從左到右的順序，首先從漢字串中取長度為MAXL的子串查詞典。若詞典中存在這個詞，則切分出這一子串，指針后移MAXL個漢字后繼續(xù)切分，否則，子串長度減一，再與詞典匹配。若長度為2的子串還不能在詞典中查到，則取當前漢字為詞，指針后移一個漢字繼續(xù)匹配。

2. 正向最小匹配

和正向最大匹配一樣，按照從左到右的順序，首先從漢字串中取長度為2的子串查詞典。若詞典中存在這個詞，則切分出該子串，指針后移2個漢字，否則，子串長度逐次加一繼續(xù)匹配。若一直到長度為MAXL的子串仍無法匹配，則切分出當前漢字。

現(xiàn)在用兩種正向匹配方法切分句子“后天我們?nèi)ケ本?，設最大詞長為4，兩種方法的匹配詞序依次是：

正向最大匹配：后天我們后天我后天我們?nèi)ケ?nbsp; 我們?nèi)?nbsp; 我們去北京去北去北京。

正向最小匹配：后天我們去北去北京去北京。

兩種方法最后都得到正確的切分結(jié)果：后天我們?nèi)ケ本?/p>

3. 逆向匹配

逆向匹配同樣也分為逆向最大匹配和逆向最小匹配。和正向匹配不同的是，切分漢字串時，不是按漢字順序從左到右抽取子串，而是從漢字串尾端開始抽取。以上句為例，兩種逆向匹配方法的匹配詞序依次是：

逆向最大匹配：們?nèi)ケ本?nbsp; 去北京北京天我們?nèi)?nbsp; 我們?nèi)?nbsp; 們?nèi)?nbsp; 去后天我們天我們我們后天。

逆向最小匹配：北京們?nèi)?我們?nèi)?天我們?nèi)?nbsp; 去我們后天。

最后也都得到了正確的切分結(jié)果。

一般說來，逆向匹配的切分精度略高于正向匹配，產(chǎn)生的歧義現(xiàn)象也較少。例如，對于句子“研究生命起源”，用正向最大匹配和正向最小匹配方法切分，分別得到“研究生命起源”和“研究生命起源”，其中前一種切分結(jié)果是錯誤的。而兩種逆向匹配方法都能得到正確的切分結(jié)果“研究生命起源”。

[1] [2] [下一頁] 【歡迎大家踴躍評論】

《譯聚網(wǎng)》倡導尊重與保護知識產(chǎn)權。如發(fā)現(xiàn)本站文章存在版權問題，煩請30天內(nèi)提供版權疑問、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

評分：	1分 2分 3分 4分 5分
評論內(nèi)容：
驗證碼：
【網(wǎng)友評論僅供其表達個人看法，并不表明本站同意其觀點或證實其描述?！?

機械分詞方法

相關機器翻譯技術文章

免費在線翻譯

翻譯機

外語書籍

行業(yè)文章

人工翻譯