語音播報
機器翻譯是利用計算機實現(xiàn)從一種自然語言到另一種自然語言自動轉(zhuǎn)換的技術(shù)。為了實現(xiàn)多語言之間的相互翻譯,通常需要構(gòu)建多個一對一的翻譯模型。一方面每個翻譯模型需要大規(guī)模存儲和計算資源,從而多語言翻譯的存儲和計算消耗非常巨大;另一方面多語言翻譯在獨立模型下無法實現(xiàn)知識共享。現(xiàn)有基于編碼器-解碼器的統(tǒng)一多語言翻譯框架雖然可以較好地解決資源占用問題,卻面臨著參數(shù)共享和語言共性未被充分利用的問題,導(dǎo)致目前多語言翻譯系統(tǒng)的譯文質(zhì)量較低。因此,如何平衡翻譯知識的共享和獨立,既解決資源消耗問題同時利用語言共性提升譯文質(zhì)量,成為多語言機器翻譯的核心挑戰(zhàn)。針對該挑戰(zhàn),中國科學(xué)院自動化研究所自然語言處理團(tuán)隊提出一種結(jié)構(gòu)緊湊且語言敏感的多語言機器翻譯方法,提供了有效的解決思路,相關(guān)成果將發(fā)表在ACL-2019學(xué)術(shù)會議上。
該工作主要基于編碼器和解碼器框架下的多語言機器翻譯。首先在模型表示方面,團(tuán)隊提出了一種表示器模型,共享編碼器和解碼器的模型結(jié)構(gòu)與參數(shù),取代多語言翻譯框架下的編碼器和解碼器,從而顯著減少了模型參數(shù)的規(guī)模,更好地利用了語言之間的共性。同時,為了提升模型對不同語言的區(qū)分能力,團(tuán)隊提出了三種語言敏感的模塊,分別是語言敏感的詞向量、語言敏感的注意力機制以及語言敏感的判別器。
針對不同語言,團(tuán)隊設(shè)定一個語種向量,該向量稱之為語言敏感詞向量。如下圖最底端所示,該語種向量加到輸入的詞向量中,并在訓(xùn)練過程中進(jìn)行調(diào)優(yōu)。下圖紅色虛線標(biāo)明了語言敏感注意力機制模塊,該模塊對于不同的翻譯任務(wù),動態(tài)地選擇不同的注意力機制。下圖最頂端是團(tuán)隊新提出的語種判別器模塊,該模塊對表示器的最上層的隱式表示進(jìn)行語種分類,增強在解碼過程中對不同語言的區(qū)分能力。
團(tuán)隊分別在較大規(guī)模的WMT數(shù)據(jù)集和較小規(guī)模的IWSLT數(shù)據(jù)集(如表1所示)上進(jìn)行了一到多和多到多的多語言翻譯實驗,來驗證該方法的性能。相較于之前的多語言翻譯模型,該方法均有一定的提升,甚至在一些語言對上面超過了獨立一對一模型在雙語上訓(xùn)練的模型。同時,該方法極大地壓縮了模型參數(shù)規(guī)模,其中在一到四多語言翻譯中,在僅包含20%左右的參數(shù)規(guī)模的情況下就能取得可比的翻譯性能。
在多種語言到多種語言的翻譯情境下,團(tuán)隊對提出的方法進(jìn)行了測試。該方法相較于基線系統(tǒng)有了顯著的提升,其中在語料不平衡的翻譯情境下,在英-越雙向翻譯任務(wù)上都取得了當(dāng)前最好的性能。同時,在零資源的Zero-Shot翻譯情境下,該方法也比前人的工作有了一定程度的提高,說明該方法能夠很好地利用語言之間的共性,適用于低資源和零資源的翻譯情形。
論文信息:Yining Wang, Long Zhou, Jiajun Zhang, Feifei Zhai, Jingfang Xu, Chengqing Zong. A Compact and Language-Sensitive Multilingual Translation Method. ACL-2019.
模型結(jié)構(gòu)示意圖
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
© 1996 - 中國科學(xué)院 版權(quán)所有
京ICP備05002857號-1京公網(wǎng)安備110402500047號
網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)