Attention原理图解（非常详细）

时间 2020-12-27

原文原文链接

1.前言希望大家结合上一篇博文讲的seq2seq详细总结来看，这样的模型其实是存在缺点的：遗忘：输入文本很长时，语义向量c 偏向于记住靠近它的几个单词，它的运行机制相当于读完整个文本再去做翻译，而我们人类会一句一句的翻译，这样就引入了Attention 机制它与 seq2seq 最大的不同是： seq2seq 的语义向量 c 是固定的，而Attention 每个时刻的语义向量 c 不同 s