google nmt 实验踩坑记录

时间 2019-12-13

标签 google nmt 实验记录栏目 Google 繁體版

原文原文链接

最近由于要作一个title压缩的任务，因此调研了一些text summary的方法。

text summary 通常分为抽取式和生成式两种。前者通常是从原始的文本中抽取出重要的word or sentence,而后按照必定的语法或者句法进行组合，从而对原始的文本进行压缩。再文本摘要的早期，基本都是这个思路，表明性的方法是textrank。所谓生成式的方法，就是试图让机器理解原始的文本，从而本身概括出原始文本的摘要,给出的结果(词语或者句子)多是原始文本中没有出现过的,这也是其与抽取式的方法最大的不一样之处。

随着最近几年深度学习的大行其道，生成式的方法的研究也逐渐多了起来。其实最主流的思路就是使用基于深度学习的seq2seq框架。提及seq2seq就不得不提著名的nmt(nerual machine translation,神经机器翻译),其基本也是基于seq2seq框架的，通常分为encoder和decoder,最近几年流行在基本的seq2seq框架上加上attention机制(注意力机制),通常能够显著提升translation的质量。

废话了这么多，本文是对于google nmt 官方github repo 实验的一个踩坑记录。基本不作理论方面的讨论，主要讨论记录一些实验结果。

1. google nmt 官方 github 地址:nmt

2. clone repo to local,这个按照教程作就能够了，不表。

3. first experiment

教程中给出的第一个实例是越南语到英语的翻译(Vietnamese to English),
具体如何下载数据,训练(train)以及在测试集上推断(infer)的脚本github上面都说的很清楚了，不表。
注意第一个实验只是做为一个demo，其训练数据只有13w+,这个对于大规模的机器翻译真的能够说是very small
了。
数据的准备通常有如下部分:
1. source language & target language,格式是每行一句话,source & target两个文件每行是一一对应的,
2. 还有就是须要source & target 的vocabulary(词汇表),其中包括了该种语言尽量多的词汇,每行一个word(还
  包括特殊的开始,结束token,unknow token)
3. 数据集分为三个部分，训练集,验证集,测试集,特别地,.vi结尾的是越南语文件,.en结尾的是英语文件
做者进行了普通的nmt 以及加入了attention 机制的nmt两组实验git
我使用了公司四核(4*24G) RAM 的 Tesla M40 显卡进行train & infer(使用 nvidia-smi 查看nvidia 显卡信息)github
实验结果代表在训练数据较少的状况下,使用attention 的nmt 的翻译质量仍是比不加attention的翻译强很多的，这个结果是
经过将两者的翻译结果分别于参考翻译进行粗略获得的，固然使用定量的bleu指标也能够获得同样的结论,加入attention的nmt bleu
score 要比普通的nmt 高很多。具体结果见下图1,2:
bash

图1:普通nmt翻译结果(右)与参考翻译(左)

图2:nmt with attention 翻译结果(右)与参考翻译(左)

直观看上去，确实是attention nmt 的翻译质量更胜一筹。框架

2. second experiment

教程中给出的第二个实验是德语到英语的翻译(WMT German-English)学习
这个部分的训练数据就比较大了,400w+行，教程中提供了train 和 infer 两个脚本，
在下载完数据以后，我又下载了几个pretrained de-en(德语到英语) model,可是发现
infer老是会报错以下：

FailedPreconditionError (see above for traceback): 
Attempting to use uninitialized value dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel
     [[Node: dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel/read = Identity[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/device:GPU:0"]
     (dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel)]]

de-en infer fail 这个问题暂时没有找到缘由。测试
de-en train from stratch 没有问题，可是由于训练数据巨大，因此应该须要训练好久(几天吧)google

3. 使用nmt 作 text summary

text summary 在nmt的框架下，能够看作是单语言的简化(通常的翻译是两个语言之间),原文是source,
summary 是target翻译
须要准备的训练数据有:
1. text.ori:原始的文本，每行一个文本，越多越好,须要去除一些无关词汇
2. text.sum:原始文本对应的summary文本,每行一个summary
3. vocab.txt:所有的word组成的文本，包括token_start,token_end,以及unknow_token等
train & infer 的脚本仿照 vi-en 或者de-en来写就行,须要显示指定source 以及target,能够这样写:

--src=ori --tgt=sum

其他的参数相似指定code

这部分的实验,TODO

4. OTHERS

google nmt github repo 讲的很是清楚，除了代码部分，关于nmt,attention等基础知识也讲的很清楚，值得一看，并且它也给出了一些有价值的参考资料，能够好好阅读一下。