常见注意力机制原理介绍与对比

时间 2021-01-13

原文原文链接

1. 引言自从2014年Seq2Seq提出以来，神经机器翻译取得了很多的进展，但是大部分模型都是基于encoder-decoder的结构，这就要求encoder对于输入序列的编码能力要足够强，才能确保得到的输入序列的上下文向量能够尽可能地保留输入序列的信息。而我们知道，随着句子的长度逐渐变长，上下文向量的表达能力其实是会逐渐下降的，因为它没法完全保留输入序列的大部分信息。因此，为了克服这