會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 翻譯新聞 > 產(chǎn)業(yè)新聞 > 正文

與谷歌翻譯持平,華為諾亞方舟實驗室全新深度機器翻譯模型,提高譯文忠實度

發(fā)布時間: 2017-03-14 14:39:31   作者:etogether.net   來源: 搜狐科技   瀏覽次數(shù):
摘要: 華為諾亞方舟實驗室最近提出了三個方法,從不同角度提高深度機器翻譯的精度。
     
       基于深度學(xué)習(xí)的機器翻譯,簡稱深度機器翻譯近兩年來取得了驚人的進展,翻譯的準(zhǔn)確度綜合評比已經(jīng)超過傳統(tǒng)的統(tǒng)計機器翻譯,研究單位主要有蒙特利爾大學(xué)[1,2],斯坦福大學(xué)[3,4],清華大學(xué)[5,6],谷歌[3,7,8],微軟[9]和百度[5,10],以及華為諾亞方舟實驗室[11-13],競爭異常激烈。
 
  最近谷歌發(fā)表論文[8],介紹了他們最新的研究成果,引起業(yè)界廣泛關(guān)注,他們的系統(tǒng)主要采用了蒙特利爾大學(xué)、斯坦福大學(xué)、清華大學(xué)、以及華為諾亞方舟實驗室的技術(shù),以及一些工程上的優(yōu)化,其最大特點是使用了大規(guī)模的訓(xùn)練數(shù)據(jù)。
  我們在同一測試數(shù)據(jù)集上對谷歌、微軟必應(yīng)、及諾亞的系統(tǒng)做了評測(百度翻譯因為直接記錄了該測試集,無法直接比較),結(jié)果如下圖所示。指標(biāo)是業(yè)界標(biāo)準(zhǔn) BLEU 點,一般來說人的 BLEU 值在50-70之間。
  
  谷歌系統(tǒng)比諾亞系統(tǒng)高大概3個 BLEU 點。我們分析,這主要是因為谷歌系統(tǒng)集成了業(yè)界多種最新技術(shù)(包括諾亞的 Coverage 技術(shù)),以及使用了更大的訓(xùn)練數(shù)據(jù)集(據(jù)說數(shù)億句對 vs. 一百萬句對)。其實他們在方法上的創(chuàng)新并不多。可以說諾亞的基本技術(shù)與谷歌是持平的。
  諾亞最近提出了三個方法,從不同角度提高深度機器翻譯的精度。
  在 NIST 中英新聞翻譯任務(wù)上,這三個方法將譯文的 BLEU 分數(shù)從33.8逐步提高到36.8,取得了9%的提升,達到了業(yè)界領(lǐng)先水平。三個工作分別被自然語言處理和人工智能頂級會議及期刊 ACL 2016, TACL 2017 和 AAAI 2017 錄用。第一個方法在業(yè)界得到廣泛好評,也被谷歌采用。下圖總結(jié)了諾亞的方法對深度翻譯的提高。
  
諾亞的方法
 
  1. 覆蓋率(Coverage)機制 [11]:通過記錄哪些詞已經(jīng)被翻譯了,鼓勵系統(tǒng)翻譯未被翻譯的詞。這個方法可以顯著減少遺漏翻譯和過度翻譯的錯誤數(shù)量。
  2. 上下文門(Context Gate)方法[12]:在譯文生成過程中,實詞和虛詞對原文信息的依賴是不一樣的。該方法通過自動控制原文信息參與生成不同類型譯文詞的程度,使原文信息更有序、更完整地傳輸?shù)阶g文中。
  3. 基于重構(gòu)(Reconstruction)的忠實度指標(biāo)[13]:以譯文重新翻譯成原文的程度來衡量譯文的忠實度。通過將重構(gòu)指標(biāo)引入訓(xùn)練過程,系統(tǒng)可生成更忠于原文的譯文。
  深度機器翻譯并不能包打天下,在訓(xùn)練數(shù)據(jù)缺乏,以及人的知識加入的條件下,未必能夠發(fā)揮威力。諾亞正在研究基于EAI思想的機器翻譯,旨在將深度翻譯與人的知識結(jié)合起來,以開發(fā)出更好的機器翻譯系統(tǒng)。
  下面介紹華為諾亞方舟實驗室將 BLEU 分數(shù)提高到36.8%的基于重構(gòu)的深度機器翻譯方法[13],該論文被 AAAI 2017 錄用。
 
微信公眾號

我來說兩句
評論列表
已有 0 條評論(查看更多評論)