會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    精選9.9元!    人工翻譯    英語IT服務 貧困兒童資助 | 留言板 | 設為首頁 | 加入收藏  繁體中文
當前位置:首頁 > 機翻技術 > 識別技術 > 正文

機械分詞方法

發(fā)布時間: 2022-12-12 09:21:54   作者:etogether.net   來源: 網(wǎng)絡   瀏覽次數(shù):
摘要: 最大匹配優(yōu)先切分長度較長的詞,最小匹配優(yōu)先切分長度較短的詞,這幾種方法相互結(jié)合,就構(gòu)成了以下幾種常見的機械分詞方法。


機械分詞方法指的是主要依據(jù)詞典信息,而不使用規(guī)則知識和統(tǒng)計信息,按一定的策略將漢字串與詞典中的詞逐一匹配;如果匹配成功,一就加以切分。按照掃描方向的不同,機械分詞方法可以分為正向匹配和逆向匹配;按照不同長度詞的優(yōu)先情況,可以分為最大匹配和最小匹配。最大匹配優(yōu)先切分長度較長的詞,最小匹配優(yōu)先切分長度較短的詞。這幾種方法相互結(jié)合,就構(gòu)成了以下幾種常見的機械分詞方法。


第一、機械分詞方法簡介

1. 正向最大匹配

用MAXL表示最大詞長,按照從左到右的順序,首先從漢字串中取長度為MAXL的子串查詞典。若詞典中存在這個詞,則切分出這一子串,指針后移MAXL個漢字后繼續(xù)切分,否則,子串長度減一,再與詞典匹配。若長度為2的子串還不能在詞典中查到,則取當前漢字為詞,指針后移一個漢字繼續(xù)匹配。


2. 正向最小匹配

和正向最大匹配一樣,按照從左到右的順序,首先從漢字串中取長度為2的子串查詞典。若詞典中存在這個詞,則切分出該子串,指針后移2個漢字,否則,子串長度逐次加一繼續(xù)匹配。若一直到長度為MAXL的子串仍無法匹配,則切分出當前漢字。


現(xiàn)在用兩種正向匹配方法切分句子“后天我們?nèi)ケ本?,設最大詞長為4,兩種方法的匹配詞序依次是:


正向最大匹配:后天我們  后天我  后天  我們?nèi)ケ?nbsp; 我們?nèi)?nbsp; 我們  去北京  去北  去  北京。

正向最小匹配:后天  我們  去北  去北京  去  北京。


兩種方法最后都得到正確的切分結(jié)果:后天 我們?nèi)ケ本?/p>


3. 逆向匹配

逆向匹配同樣也分為逆向最大匹配和逆向最小匹配。和正向匹配不同的是,切分漢字串時,不是按漢字順序從左到右抽取子串,而是從漢字串尾端開始抽取。以上句為例,兩種逆向匹配方法的匹配詞序依次是:


逆向最大匹配:們?nèi)ケ本?nbsp; 去北京  北京  天我們?nèi)?nbsp; 我們?nèi)?nbsp; 們?nèi)?nbsp; 去  后天我們  天我們  我們  后天。

逆向最小匹配:北京  們?nèi)?我們?nèi)?天我們?nèi)?nbsp; 去 我們  后天。


最后也都得到了正確的切分結(jié)果。

一般說來,逆向匹配的切分精度略高于正向匹配,產(chǎn)生的歧義現(xiàn)象也較少。例如,對于句子“研究生命起源”,用正向最大匹配和正向最小匹配方法切分,分別得到“研究生命  起源”和“研究  生命起源”,其中前一種切分結(jié)果是錯誤的。而兩種逆向匹配方法都能得到正確的切分結(jié)果“研究  生命  起源”。



微信公眾號

[1] [2] [下一頁] 【歡迎大家踴躍評論】
  • 上一篇:切分歧義處理知識
  • 下一篇:自動分詞的原則


  • 《譯聚網(wǎng)》倡導尊重與保護知識產(chǎn)權。如發(fā)現(xiàn)本站文章存在版權問題,煩請30天內(nèi)提供版權疑問、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時溝通與處理。


我來說兩句
評分: 1分 2分 3分 4分 5分
評論內(nèi)容:
驗證碼:
【網(wǎng)友評論僅供其表達個人看法,并不表明本站同意其觀點或證實其描述?!?
評論列表
已有 0 條評論(查看更多評論)