Seq2Seq的attention

Seq2Seq模型存在的问题: 梯度问题,decoding只依赖于context vector,句子开始部分的信息容易丢失。(即梯度消失问题) 实际应用中,翻译某个词可能只需要关注C中的某一部分即可(如翻译weather时只需关注天气这个词),但seq2seq的C是整个句子的向量,所以在翻译weather时可能会出现副作用。 解决方法:引入attention   进入attention的好处:可解
相关文章
相关标签/搜索