【论文阅读】Neural Machine Translation By Jointly Learning To Align and Translate

Neural Machine Translation By Jointly Learning To Align and Translatehtml

二做与三做 Universite de Montreal 鼎鼎有名的蒙特利尔大学,最后一位 Yoshua Bengio. git

该文章的引用量: 1478github

github 传送门 : https://github.com/lisa-groundhog/GroundHogweb

这篇文章在神经网络 采用编码-解码RNN 作端到端的机器翻译的基础上,使得模型能够在预测下一个词的时候,自动地选择原句子相关的部分做为解码的输入,这也是后来被提为attention机制的内容。该模型的性能在英法语数据的评测上超过了当前使用基于短语的机器翻译系统。网络

饮水思源,RNN encode-decode的模型架构是由文献[1]架构

[1] Neural Machine Translation By Jointly Learning To Align and Translateapp

二做与三做 Universite de Montreal 鼎鼎有名的蒙特利尔大学,最后一位 Yoshua Bengio. 框架

该文章的引用量: 1478svg

这篇文章在神经网络 采用编码-解码RNN 作端到端的机器翻译的基础上,使得模型能够在预测下一个词的时候,自动地选择原句子相关的部分做为解码的输入,这也是后来被提为attention机制的内容。该模型的性能在英法语数据的评测上超过了当前使用基于短语的机器翻译系统。性能

饮水思源,RNN encode-decode的模型架构是由文献[1][2][3],这三篇文章也都是由机器翻译方面的学者提出来的。编码解码,模型的名字就显得很形象。

该文章的重点就在于,在前人encode-decode的框架上,同时作到机器翻译中的对齐(调序)与(短语)翻译过程,对齐(调序)是指将源语言与目标语言短语对齐,翻译指的是短语间的翻译,文章是怎么作到这一点的呢。其实如今听来很简单,在模型中间加了一层Attention的机制(不明白在文章中并无用到Attention这一个词,所用到的是在预测下一个词时,找相关的源语言)。模型的框架示意图以下:

原先的c,只是将RNN最后一个向量输出,或作一个简单地加权与拼接,本文中将这个过程引入参数,参数来衡量在i时刻,应该关注哪一时刻的h多一些呢

BiRNN在语音识别与机器翻译的任务上表现都不错,h隐状态也将前向与逆向所生成的隐状态作了一个拼接,使得保留前向与逆向的信息。

Data语料: ACL WMT ’14 [4]

Model 细节:hidden units,30,000个词,其余的词就标为, 编解码都是1000,minibatch :80, 训练时间:5 days, SGD , using beam search to find a translation, 参考的方法: [3]

对比的方法有,RNN Encode-Decode( RNNencdec, Cho et al., 2014a)(github 传送门:Implementations are available at https://github.com/lisa-groundhog/GroundHog), 以及本文所提的 RNN-search,以及 phrase-base的当前最优水平 (Moses)(open-source machine)[居然没有参考文献],文章中所指的 phrase-based MT是指不加任何神经网络组件的机器翻译方法(这样类比是否有失偏颇? Phrase-based 还额外地使用了单语信息)。

在No-UNK的数据评测上与phrase-base的模型具备可比性

(要去看看使用端到端模型是如何超越phrase-base以及 统计神经机器翻译的模型)

RNNencdec 与 RNN-search 在不一样sequence length上的性能变化,很具备说明性,long sequence在采用了Attention机制,在较长句子间均可以留存更多的信息

这篇文章是第一篇纯以神经网络为模型的机器翻译文章?[2] 呢?不是吗?

留下的挑战,关键问题: 如何解决集外词呢?

[1]Cho, K., van Merrienboer, B., Gulcehre, C., Bougares, F., Schwenk, H., and Bengio, Y. (2014a). Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014). to appear.
[2]Cho, K., van Merri¨ enboer, B., Bahdanau, D., and Bengio, Y. (2014b). On the properties of neural machine translation: Encoder–Decoder approaches. In Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. to appear.
[3]Sutskever, I., Vinyals, O., and Le, Q. (2014). Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems (NIPS 2014).
[4]http://www.statmt.org/wmt14/translation-task.html