Transformer详解（二）：Attention机制

时间 2020-12-23

原文原文链接

1.Encoder-Decoder中的attention机制上一篇文章最后，在Encoder-Decoder框架中，输入数据的全部信息被保存在了C。而这个C很容易受到输入句子长度的影响。当句子过长时，C就有可能存不下这些信息，导致模型后续的精度下降。Attention机制对于这个问题的解决方案是在decoder阶段，每个时间点输入的C都是不一样的。而这个C，会根据当前要输出的y，去选取最适合y的