翻譯沒有唯一標(biāo)準(zhǔn)答案,它更像一種藝術(shù)。
14日晚,微軟亞洲研究院與雷德蒙研究院的研究人員宣布,其研發(fā)的機(jī)器翻譯系統(tǒng)在通用新聞報(bào)道測試集newstest2017的中-英測試集上,達(dá)到了可與人工翻譯媲美的水平;這是首個(gè)在新聞報(bào)道的翻譯質(zhì)量和準(zhǔn)確率上可以比肩人工翻譯的翻譯系統(tǒng)。
newstest2017測試集由來自產(chǎn)業(yè)界和學(xué)術(shù)界的團(tuán)隊(duì)共同開發(fā)完成,并于2017年在WMT17大會(huì)上發(fā)布。而新聞(news)測試集則是三類翻譯測試集中的一個(gè),其他兩類為生物醫(yī)學(xué)(biomedical)和多模式(multimodal)。
四大技術(shù)
我們知道,對(duì)于同一個(gè)意思人類可以用不同的句子來表達(dá),因此翻譯并沒有標(biāo)準(zhǔn)答案,即使是兩位專業(yè)的翻譯人員對(duì)于完全相同的句子也會(huì)有略微不同的翻譯,而且兩個(gè)人的翻譯都不錯(cuò)。微軟亞洲研究院副院長、自然語言計(jì)算組負(fù)責(zé)人周明表示:這也是為什么機(jī)器翻譯比純粹的模式識(shí)別任務(wù)復(fù)雜得多,人們可能用不同的詞語來表達(dá)完全相同的意思,KUKA機(jī)器人示教器維修,但未必能準(zhǔn)確判斷哪一個(gè)更好。
這也是為什么科研人員在機(jī)器翻譯上攻堅(jiān)了數(shù)十年,甚至曾經(jīng)很多人都認(rèn)為機(jī)器翻譯永遠(yuǎn)不可能達(dá)到人類翻譯的水平。近兩年隨著深度神經(jīng)網(wǎng)絡(luò)的引入,機(jī)器翻譯的表現(xiàn)取得了很多顯著的提升,翻譯結(jié)果相較于以往的統(tǒng)計(jì)機(jī)器翻譯結(jié)果更加的自然流暢。
據(jù)了解,在這次的工作中來自微軟亞洲研究院和雷德蒙研究院的三個(gè)研究組通過多次交流合作,將他們的研究工作相結(jié)合,再次更進(jìn)一步地提高了機(jī)器翻譯的質(zhì)量,其中用到的技術(shù)包括對(duì)偶學(xué)習(xí)(DualLearning)、推敲網(wǎng)絡(luò)(DeliberationNetworks)、聯(lián)合訓(xùn)練(JointTraining)和一致性規(guī)范(AgreementRegularization)等。
對(duì)偶無監(jiān)督學(xué)習(xí)框架
對(duì)偶學(xué)習(xí),即利用任務(wù)的對(duì)偶結(jié)構(gòu)來進(jìn)行學(xué)習(xí)。例如,KUKA機(jī)器人維修,在翻譯領(lǐng)域,我們關(guān)心從英文翻譯到中文,也同樣關(guān)心從中文翻譯回英文。由于存在這樣的對(duì)偶結(jié)構(gòu),兩個(gè)任務(wù)可以互相提供反饋信息,而這些反饋信息可以用來訓(xùn)練深度學(xué)習(xí)模型。也就是說,即便沒有人為標(biāo)注的數(shù)據(jù),有了對(duì)偶結(jié)構(gòu)也可以做深度學(xué)習(xí)。另一方面,兩個(gè)對(duì)偶任務(wù)可以互相充當(dāng)對(duì)方的環(huán)境,這樣就不必與真實(shí)的環(huán)境做交互,兩個(gè)對(duì)偶任務(wù)之間的交互就可以產(chǎn)生有效的反饋信號(hào)。因此,充分地利用對(duì)偶結(jié)構(gòu),就有望解決深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的瓶頸訓(xùn)練數(shù)據(jù)從哪里來、與環(huán)境的交互怎么持續(xù)進(jìn)行等問題。
推敲網(wǎng)絡(luò)的解碼過程
推敲網(wǎng)絡(luò)中的推敲二字可以認(rèn)為是來源于人類閱讀、寫文章以及做其他任務(wù)時(shí)候的一種行為方式,即任務(wù)完成之后,并不當(dāng)即終止,而是會(huì)反復(fù)推敲。微軟亞洲研究院機(jī)器學(xué)習(xí)組將這個(gè)過程沿用到了機(jī)器學(xué)習(xí)中。推敲網(wǎng)絡(luò)具有兩段解碼器,其中第一階段解碼器用于解碼生成原始序列,第二階段解碼器通過推敲的過程打磨和潤色原始語句。后者了解全局信息,在機(jī)器翻譯中看,它可以基于第一階段生成的語句,工業(yè)機(jī)器人維修,產(chǎn)生更好的翻譯結(jié)果。
聯(lián)合訓(xùn)練:從源語言到目標(biāo)語言翻譯(SourcetoTarget)P(y|x)與從目標(biāo)語言到源語言翻譯(TargettoSource)P(x|y)
聯(lián)合訓(xùn)練可以認(rèn)為是從源語言到目標(biāo)語言翻譯(SourcetoTarget)的學(xué)習(xí)與從目標(biāo)語言到源語言翻譯(TargettoSource)的學(xué)習(xí)的結(jié)合。中英翻譯和英中翻譯都使用初始并行數(shù)據(jù)來訓(xùn)練,在每次訓(xùn)練的迭代過程中,中英翻譯系統(tǒng)將中文句子翻譯成英文句子,從而獲得新的句對(duì),而該句對(duì)又可以反過來補(bǔ)充到英中翻譯系統(tǒng)的數(shù)據(jù)集中。同理,這個(gè)過程也可以反向進(jìn)行。這樣雙向融合不僅使得兩個(gè)系統(tǒng)的訓(xùn)練數(shù)據(jù)集大大增加,而且準(zhǔn)確率也大幅提高。
一致性規(guī)范:從左到右P(y|x,theta->)和從右到左P(y|x,theta