Seq2Seq ---学习笔记

应用场景:机器翻译

 

与language model 不一样网络

MT model 的a<0> 是由encoder 生成的。翻译

language model 的 a<0> 是 初始化的。3d

 

 

 greedy search 

为何不用 greedy search ?code

 Beam Search   

B=3 的意思是,每次greedy search 选出3个词,而后在根据当前3个词,分别生成下一个词,下一个词也生成3个 循环下去。blog

 

 

 Beam Search   改进

 

都是几率,很小的几率相乘,值更小,不少0的,影响精度,不如取个log,model

取完log  还有一个问题,这样单纯的几率相乘是倾向于生成短句子的。循环

由于短句子的几率是最大的。单词越多 几率越小。im

因此归一化  ,除以tg的a次方  d3

当a==0 :实际上是没有归一化的。img

a==1:彻底取决于长度。

a 是一个超参数。

 

beam search 虽然快,可是不能保证结果是正确(几率最大)的。

Beam search 的偏差

咱们经过分析,要判断是rnn encoder 的偏差 仍是 beam search 的偏差,从而决定如如何去改进。

rnn 产生的偏差,咱们就改善网络。

beam search 的偏差,咱们能够加大B.

相关文章
相关标签/搜索