日本一道本高清一区二区-色妞熟女午夜福利在线视频-欧美成人情激情免费看-老司机午夜精品免费视频

加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點,為把我國建設(shè)成為世界科技強國作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場、面向國家重大需求、面向人民生命健康,率先實現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國家創(chuàng)新人才高地,率先建成國家高水平科技智庫,率先建設(shè)國際一流科研機構(gòu)。

——中國科學(xué)院辦院方針

首頁 > 科研進(jìn)展

自動化所提出一種適用于低資源和零資源的多語言機器翻譯方法

2019-06-11 自動化研究所
【字體:

語音播報

  機器翻譯是利用計算機實現(xiàn)從一種自然語言到另一種自然語言自動轉(zhuǎn)換的技術(shù)。為了實現(xiàn)多語言之間的相互翻譯,通常需要構(gòu)建多個一對一的翻譯模型。一方面每個翻譯模型需要大規(guī)模存儲和計算資源,從而多語言翻譯的存儲和計算消耗非常巨大;另一方面多語言翻譯在獨立模型下無法實現(xiàn)知識共享。現(xiàn)有基于編碼器-解碼器的統(tǒng)一多語言翻譯框架雖然可以較好地解決資源占用問題,卻面臨著參數(shù)共享和語言共性未被充分利用的問題,導(dǎo)致目前多語言翻譯系統(tǒng)的譯文質(zhì)量較低。因此,如何平衡翻譯知識的共享和獨立,既解決資源消耗問題同時利用語言共性提升譯文質(zhì)量,成為多語言機器翻譯的核心挑戰(zhàn)。針對該挑戰(zhàn),中國科學(xué)院自動化研究所自然語言處理團(tuán)隊提出一種結(jié)構(gòu)緊湊且語言敏感的多語言機器翻譯方法,提供了有效的解決思路,相關(guān)成果將發(fā)表在ACL-2019學(xué)術(shù)會議上。

  該工作主要基于編碼器和解碼器框架下的多語言機器翻譯。首先在模型表示方面,團(tuán)隊提出了一種表示器模型,共享編碼器和解碼器的模型結(jié)構(gòu)與參數(shù),取代多語言翻譯框架下的編碼器和解碼器,從而顯著減少了模型參數(shù)的規(guī)模,更好地利用了語言之間的共性。同時,為了提升模型對不同語言的區(qū)分能力,團(tuán)隊提出了三種語言敏感的模塊,分別是語言敏感的詞向量、語言敏感的注意力機制以及語言敏感的判別器。

  針對不同語言,團(tuán)隊設(shè)定一個語種向量,該向量稱之為語言敏感詞向量。如下圖最底端所示,該語種向量加到輸入的詞向量中,并在訓(xùn)練過程中進(jìn)行調(diào)優(yōu)。下圖紅色虛線標(biāo)明了語言敏感注意力機制模塊,該模塊對于不同的翻譯任務(wù),動態(tài)地選擇不同的注意力機制。下圖最頂端是團(tuán)隊新提出的語種判別器模塊,該模塊對表示器的最上層的隱式表示進(jìn)行語種分類,增強在解碼過程中對不同語言的區(qū)分能力。

  團(tuán)隊分別在較大規(guī)模的WMT數(shù)據(jù)集和較小規(guī)模的IWSLT數(shù)據(jù)集(如表1所示)上進(jìn)行了一到多和多到多的多語言翻譯實驗,來驗證該方法的性能。相較于之前的多語言翻譯模型,該方法均有一定的提升,甚至在一些語言對上面超過了獨立一對一模型在雙語上訓(xùn)練的模型。同時,該方法極大地壓縮了模型參數(shù)規(guī)模,其中在一到四多語言翻譯中,在僅包含20%左右的參數(shù)規(guī)模的情況下就能取得可比的翻譯性能。

  在多種語言到多種語言的翻譯情境下,團(tuán)隊對提出的方法進(jìn)行了測試。該方法相較于基線系統(tǒng)有了顯著的提升,其中在語料不平衡的翻譯情境下,在英-越雙向翻譯任務(wù)上都取得了當(dāng)前最好的性能。同時,在零資源的Zero-Shot翻譯情境下,該方法也比前人的工作有了一定程度的提高,說明該方法能夠很好地利用語言之間的共性,適用于低資源和零資源的翻譯情形。

  論文信息:Yining Wang, Long Zhou, Jiajun Zhang, Feifei Zhai, Jingfang Xu, Chengqing Zong. A Compact and Language-Sensitive Multilingual Translation Method. ACL-2019.

 

模型結(jié)構(gòu)示意圖

打印 責(zé)任編輯:葉瑞優(yōu)

掃一掃在手機打開當(dāng)前頁

© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002

地址:北京市西城區(qū)三里河路52號 郵編:100864

電話: 86 10 68597114(總機) 86 10 68597289(總值班室)

  • © 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864

    電話: 86 10 68597114(總機) 86 10 68597289(總值班室)

  • © 1996 - 中國科學(xué)院 版權(quán)所有
    京ICP備05002857號-1
    京公網(wǎng)安備110402500047號
    網(wǎng)站標(biāo)識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864
    電話:86 10 68597114(總機)
       86 10 68597289(總值班室)