一文详解Attention机制

时间 2020-12-30

原文原文链接

Attention机制我们知道Seq2Seq模型有一个缺点就是句子太长的话encoder会遗忘，那么decoder接受到的句子特征也就不完全，我们看一下下面这个图，纵轴BLUE是机器翻译的指标，横轴是句子的单词量，我们可以看出用了attention之后模型的性能大大提升。用了注意力机制，Decoder每次更新状态的时候都会再看一遍encoder所有状态，还会告诉decoder要更关注哪部分，这

>>阅读原文<<