Attention机制、HAN

一、Attention机制 1.为什么要用Attention 在encoder-decoder架构中,当输入序列比较长时,模型的性能会变差,因为即便是LSTM或GRU也是对文本的信息进行了压缩,尤其是对于机器翻译、摘要生成等任务而言,decoder每个时间步的输出其实是对encoder各时间步的输入有不同的侧重的。因此,引入attention机制,来对encoder各时间步赋以不同的权重,也即给予
相关文章
相关标签/搜索