http://c.biancheng.net/view/1947.htmlhtml
seq2seq 是一类特殊的 RNN,在机器翻译、文本自动摘要和语音识别中有着成功的应用。本节中,咱们将讨论如何实现神经机器翻译,获得相似于谷歌神经机器翻译系统获得的结果(https://research.googleblog.com/2016/09/a-neural-network-for-machine.html)。
关键是输入一个完整的文本序列,理解整个语义,而后输出翻译结果做为另外一个序列。阅读整个序列的想法与之前的架构大相径庭,在该架构中,一组固定词汇从一种源语言翻译成目标语言。
本节受到 Minh-Thang Luong 于 2016 年所写的博士论文“Neural Machine Translation”的启发。第一个关键概念是编码器–解码器架构,其中编码器将源语句转换为表示语义的向量,而后这个向量经过解码器产生翻译结果。
编码器和解码器都是 RNN,它们能够捕捉语言中的长距离依赖关系,例如性别一致性和语法结构,而没必要事先知道它们,也不须要跨语言进行 1:1 映射。它可以流利地翻译而且具备强大的功能。python
来看一个 RNN 例子:将 She loves cute cats 翻译成 Elle aime les chats mignons。有两个 RNN:一个充当编码器,一个充当解码器。源语句 She loves cute cats 后面跟着一个分隔符“-”和目标语句 Elle aime les chats mignon。这两个关联语句被输入给编码器用于训练,而且解码器将产生目标语句 Elle aime les chats mignon。固然,须要大量相似例子来得到良好的训练。git
NUM序列模型,一个深度循环结构示例,用于将源语句“She loves cute cats” 翻译成目标语句“Elle aimel les chats mignons”。解码器侧,前面时序中产生的单词做为输出下一个单词的输入,“_”表明语句的结束。github
如今有一些可使用的 RNN 变体,具体介绍其中的一些:算法
仍然考虑博士论文“Neural Machine Translation”,可使用嵌入层将输入的句子映射到一个嵌入空间。而后,存在两个链接在一块儿的 RNN——源语言的编码器和目标语言的解码器。以下图所示,有多个隐藏层和两个流动方向:前馈垂直方向链接隐藏层,水平方向是将知识从上一步转移到下一步的循环部分。api
本节使用 NMT(Neural Machine Translation,神经机器翻译),这是一个在 TensorFlow 上在线可得的翻译演示包。网络
NMT 可经过https://github.com/tensorflow/nmt/ 获取,具体代码可经过 GitHub 获取。架构
全部上述代码已经在 https://github.com/tensorflow/nmt/blob/master/nmt/model.py 上给出。关键是将两个 RNN 打包在一块儿,第一个是嵌入空间的编码器,将类似的单词映射得很接近,编码器理解训练样例的语义,并产生一个张量做为输出。而后经过将编码器的最后一个隐藏层链接到解码器的初始层能够简单地将该张量传递给解码器。函数
请注意,学习可以进行是由于损失函数基于交叉熵,且labels=decoder_outputs。学习
以下图所示,代码学习如何翻译,并经过BLEU指标的迭代跟踪进度:
下面咱们将源语言翻译成目标语言。这个想法很是简单:一个源语句做为两个组合的 RNN(编码器+解码器)的输入。一旦句子结束,解码器将发出 logit 值,采用贪婪策略输出与最大值相关的单词。
例如,单词 moi 做为来自解码器的第一个标记被输出,由于这个单词具备最大的 logit 值。此后,单词 suis 输出,等等:
解码器的输出有多种策略:
两个 RNN 封装在一块儿造成编码器–解码器 RNN 网络。解码器发出的 logits 被贪婪策略转换成目标语言的单词。做为一个例子,下面显示了一个从越南语到英语的自动翻译的例子: