与language model 不一样网络
MT model 的a<0> 是由encoder 生成的。翻译
language model 的 a<0> 是 初始化的。3d
为何不用 greedy search ?code
B=3 的意思是,每次greedy search 选出3个词,而后在根据当前3个词,分别生成下一个词,下一个词也生成3个 循环下去。blog
都是几率,很小的几率相乘,值更小,不少0的,影响精度,不如取个log,model
取完log 还有一个问题,这样单纯的几率相乘是倾向于生成短句子的。循环
由于短句子的几率是最大的。单词越多 几率越小。im
因此归一化 ,除以tg的a次方 d3
当a==0 :实际上是没有归一化的。img
a==1:彻底取决于长度。
a 是一个超参数。
beam search 虽然快,可是不能保证结果是正确(几率最大)的。
咱们经过分析,要判断是rnn encoder 的偏差 仍是 beam search 的偏差,从而决定如如何去改进。
rnn 产生的偏差,咱们就改善网络。
beam search 的偏差,咱们能够加大B.