Attention模型方法综述 | 多篇经典论文解读

先简单谈一谈 attention 模型的引入。以基于 seq2seq 模型的机器翻译为例,如果 decoder 只用 encoder 最后一个时刻输出的 hidden state,可能会有两个问题(我个人的理解)。 1. encoder 最后一个 hidden state,与句子末端词汇的关联较大,难以保留句子起始部分的信息; 2. encoder 按顺序依次接受输入,可以认为 encoder 产
相关文章
相关标签/搜索