Seq2Seq ---学习笔记

时间 2019-12-06

标签 seq2seq seq 学习笔记繁體版

原文原文链接

应用场景：机器翻译

与language model 不一样网络

MT model 的a<0> 是由encoder 生成的。翻译

language model 的 a<0> 是初始化的。3d

为何不用 greedy search ?code

B=3 的意思是，每次greedy search 选出3个词，而后在根据当前3个词，分别生成下一个词，下一个词也生成3个循环下去。blog

都是几率，很小的几率相乘，值更小，不少0的，影响精度，不如取个log,model

取完log 还有一个问题，这样单纯的几率相乘是倾向于生成短句子的。循环

由于短句子的几率是最大的。单词越多几率越小。im

因此归一化，除以tg的a次方 d3

当a==0 :实际上是没有归一化的。img

a==1：彻底取决于长度。

a 是一个超参数。

beam search 虽然快，可是不能保证结果是正确（几率最大）的。

咱们经过分析，要判断是rnn encoder 的偏差仍是 beam search 的偏差，从而决定如如何去改进。

rnn 产生的偏差，咱们就改善网络。

beam search 的偏差，咱们能够加大B.