attention model--Neural machine translation by jointly learning to align and translate论文解读

attention模型基本框图 上面的两幅图已经把attention model表示出来了,下面我再以文字加以描述。 为什么需要attention 传统的encoder-decoder模型大致如下图所示: 可以看出传统模型把句子的所有语义信息浓缩为一个中间语义C,每一个输出的y都是利用了同一个C,所以输出的每个y都利用了相同的语义信息C,输入的每个单词对于不同的输出y都有相同的权重,并没有引入注意
相关文章
相关标签/搜索