注意力机制-《动手学深度学习pytorch》

引入注意力机制原因 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。 然而RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息,所以随着所需翻译句子的长度的增加,这种结构的效果会显著下降。 与此同时,解码的目标词语可能只与原输入的部分词语有关,而
相关文章
相关标签/搜索