035棋牌

2019-04-22 | 作者:微軟亞洲研究院

近日,由国际计算语言学协会ACL(The Association for Computational Linguistics)举办的WMT 2019国际机器翻译比赛的客觀評測結果揭曉,微軟亞洲研究院機器學習组在参加的11项机器翻译任务中,有8项获得了第一名,另外3项获得第二名,凭借多维度的技术创新成为冠军团队。

圖片來自大賽網站,橫向爲源語種,縱向爲目標語種

比賽結果遙遙領先:8項任務獲第一,3項任務獲第二

WMT的全称为Conference on Machine Translation (http://www.statmt.org/wmt19/),是全球学术界公认的国际顶级机器翻译比赛。自2006年至今,WMT机器翻译比赛已经成功举办14届,每一次比赛都是全球各大高校、科技公司与学术机构展示自身机器翻译实力的较量,更是见证了机器翻译技术的不断进步。

在本届WMT 2019大赛中(http://www.statmt.org/wmt19/translation-task.html),共有来自全球的50多支队伍参加,包括微软、Facebook、百度、字节跳动、平安、日本情报通信研究机构(NICT)等企業、科研机构和高校。大赛共设置了19项不同语言之间的翻译任务,微軟亞洲研究院参加了11项,其中8项翻译任务荣获第一,包括:德語-英語、德語-法語、法語-德語、中文-英語、英語-立陶宛語、英語-芬蘭語、俄語-英語、英語-德語。另外3項任務獲得第二,包括:立陶宛語-英語、芬蘭語-英語、英語-哈薩克語。

结果显示,此次大赛的亚军团队在3项任务中获得了第一,季军团队则有两项获得第一,来自微軟亞洲研究院的神经网络机器翻译算法的表现遥遥领先于其他参赛队伍。

多維度的算法改進,讓機器翻譯更優秀

2018年3月,由微軟亞洲研究院与微软雷德蒙研究院共同研发的机器翻译系统便在WMT 2017大会上发布的通用新闻报道测试newstest2017的中-英测试集上,達到了可與人工翻譯媲美的水平。该机器翻译系统融合了微軟亞洲研究院機器學習组的最近研究成果——对偶学习(Dual Learning)推敲网络(Deliberation Networks),以及自然語言計算組的最新技術——联合训练(Joint Training)和一致性规范(Agreement Regularization),成爲首個在新聞報道的翻譯質量和准確率上可以比肩人工翻譯的翻譯系統。

在WMT 2019的比赛中,微軟亞洲研究院機器學習组再次将多个创新的算法运用在了机器翻译的任务中,從學習機制、預訓練、網絡架構優化、數據增強等方面,大大提升了機器翻譯結果的質量

此次使用的創新算法包括:

  • MADL:Multi-agent dual learning,多体对偶学习
  • MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的预训练
  • NAO:Automatic neural architecture optimization,自动神经网络架构优化
  • SCA:Soft contextual data augmentation,软性上下文数据增强

其中,关于NAO的论文已被NIPS 2018收录,关于MADL的论文已被ICLR 2019收录,关于MASS的论文则被ICML 2019收录。

新的學習機制:MADL多體對偶學習

在機器翻譯中,訓練數據的數據量越大、質量越高,其訓練的翻譯結果越好。基于對偶學習,創新的MADL算法利用正向與反向翻譯的多個模型對單語數據進行前向和後向翻譯並打分,然後將得分最高的數據放置到訓練數據中從而獲得更多高質量的數據,或者將單語數據的前向後向重建誤差加入到損失函數裏來增強學習過程。MADL不局限于某個語種,可以在任何源語種和目標語種之間提供這樣的對偶學習能力。

更好的預訓練:MASS屏蔽序列到序列的預訓練

MASS是针对序列生成设计的预训练算法,比BERT以及GPT/2更加通用。BERT模型通常是屏蔽掉句子中的一个单词,然后通过分类来预测这个词;GPT模型是给定前面的词,通过分类生成后面的词,直至一句话或整篇文檔;两者都是预训练一个编码器。而翻译则是基于编码器-解码器-注意力框架,因此BERT和GPT/2并不能很好地适用于翻译任务。但MASS则能将句子中的部分连续片断随机屏蔽,然后训练一个编码器-解码器-注意力模型预测生成该片断,从而利用海量单语数据预训练然后初始化翻译模型。因此,MASS比BERT和GPT/2都更适用于机器翻译这个应用场景。实验证明,MASS屏蔽翻译句子中50%的片断效果最好。

网络架构优化: NAO自动神经网络架构优化

NAO是從神經網絡結構優化的角度去提升機器翻譯水平。不同的網絡結構通常對于翻譯結果有著較大影響,NAO把離散的網絡結構嵌入到連續的向量空間,從而通過連續優化找到更好的網絡結構。與固定的Transformer相比,NAO可以找到更多樣的網絡結構,和Transformer形成互補優勢,使得機器翻譯多模型集成的結果更佳。

數據增強:SCA軟性上下文數據增強

所謂SCA軟性上下文數據增強,是在雙語訓練數據中隨機屏蔽某個詞,再基于語言模型利用上下文來預測這個詞,隨後選擇概率最高的幾個詞,根據預測概率把這些預測的詞線性組合到一起,替換原來被屏蔽的詞。這樣一個句子/句對可以生成多個句子/句對,同一個句子的翻譯就可以出現多個合理的翻譯結果,這也與實際翻譯過程中翻譯結果並不唯一這一事實相吻合。通過如此軟性上下文數據增強,從而擴大訓練數據的規模,增強數據質量,得到更好的翻譯結果。

在此次的11项机器翻译任务中,微軟亞洲研究院的研究员们在每个翻译任务上采用了上述不同的技术,便已取得了不俗的成绩。未来,研究團隊計劃將這四個層面的創新技術整合,並且通過與微軟翻譯産品部門的合作,將新技術盡快轉化到微軟翻譯産品中

?