deeplearning.ai学习seq2seq模型

1、seq2seq架构图算法

seq2seq模型左边绿色的部分咱们称之为encoder,左边的循环输入最终生成一个固定向量做为右侧的输入,右边紫色的部分咱们称之为decoder。单看右侧这个结构跟咱们以前学习的语言模型很是类似,以下:架构

惟一不一样的是,语言模型的输入a<0>是一个零向量,而seq2seq模型decoder部分的输入是由encoder编码获得的一个固定向量。因此能够称seq2seq模型为条件语言模型p(y|x)。函数

语言模型生成的序列y是能够随机生成的,而seq2seq模型用于到机器翻译中,咱们是要找到几率最大的序列y,即最可能或者说最好的翻译结果,max p(y|x)。性能

 

seq2seq模型如何寻找到最可能的序列y呢?学习

是否是能够采用贪心算法呢?若是采用贪心算法找的结果不必定是最优的,只能说是其中一个结果。由于贪心算法的思路是先找到第一个最好的y<1>,第一个输出结果y<1>再找到第二个最好的y<2>,以此类推。这种方式的最终结果是每个元素多是最优的,可是整个句子却未必是最好的。例以下面的句子:优化

 

采用贪心算法,最可能的结果就是第二句,由于若是前两个是Jane is ,第三个最可能的是going,而不是visiting,这是由于is going在英语中大量存在。可是最好的结果倒是第一个句子。编码

 

2、beam search(集束搜索)spa

仍是以上述机器翻译的例子来解释集束搜索算法流程,第一步以下翻译

 

第一步就是先根据左侧的输入,生成第一个输出y<1>,y<1>是softmax转换后的几率输出。集束搜索须要设置集束宽度,本次设置B(beam width)=3,也就是每次仅保留几率最大的top3个。因此,第一步就是选择y<1>中几率最大的前三个词,假设本例子中是in,jane,september,就保留这三个词在内存中。3d

第二步:

第二步就是在y<1>为in,jane,September的状况下,分别计算第二个词的几率,如上图所示套入三个seq2seq模型中去各自寻找。由于词典维度|v|=10000,因此三个词最终会计算出30000个后面衔接第二个词的几率,最终从这30000个里面选出几率最大的top3个便可,由于集束宽度依然为3。假设第二步筛选出来的结果是in september, jane is,jane visits;September开头的由于链接后面的词后几率偏低,已经被去掉了

第三步:

第三步实际上是跟第二步同样,直到最后选出EOS结束。

 

3、beam search的优化

优化一:

将几率的乘积转化成为几率的对数求和。

 

由于乘积的话,会越乘越小,甚至会致使数值的下溢问题。取对数后就变成了连加,就基本解决了这个问题,并且对数后的目标函数与原目标函数解是一致的。

优化二:

归一化目标函数,除以翻译结果的单词数量,减小了对长的结果的惩罚。由于从上述目标函数能够看出,不管原目标函数仍是对数目标函数,都不利于长的结果的输出,由于结果越长,连乘或者连加(每一个元素取对数后都是负数)都使得几率愈来愈小。

这里的Ty就是翻译结果的单词数量,α是一个超参数,能够设置0(至关于不作归一化),0.7,1,须要根据实际状况调整获得一个最优的结果。

 

集束宽度B的选择:

large B:效果好,计算代价大,运行慢。

small B:效果差,计算代价小,运行快。

工业中,B=10,每每是一个不错的选择;科研中,为了充分实验,能够尝试100,1000,3000.

B从1~10,性能提高比较明显,可是B从1000~3000,提高就没有那么明显了。

总结,相比于BFS(广度优先搜索)、DFS,beam search不能保证必定能找到arg max 的准确最大值,是一个近似的最大值。

相关文章
相关标签/搜索