seq2seq attention

时间 2021-01-02

原文原文链接

1.seq2seq：分为encoder和decoder 　　a.在decoder中，第一时刻输入的是上encoder最后一时刻的状态，如果用了双向的rnn，那么一般使用逆序的最后一个时刻的输出（网上说实验结果比较好）　　　b.每一时刻都有一个输出，即：[batch_size, decoder_output_size]，经过一个MLP后，都跟词汇表中的每一个词都对应了一个概率，即: [batch