Attention模型方法综述 | 多篇经典论文解读

时间 2021-01-13

原文原文链接

先简单谈一谈 attention 模型的引入。以基于 seq2seq 模型的机器翻译为例，如果 decoder 只用 encoder 最后一个时刻输出的 hidden state，可能会有两个问题（我个人的理解）。 1. encoder 最后一个 hidden state，与句子末端词汇的关联较大，难以保留句子起始部分的信息； 2. encoder 按顺序依次接受输入，可以认为 encoder 产