读Attention文章1

简介部分: 对于机器翻译,之前的做法就是把输入压缩成一个向量,然后对这个encode后的向量进行decode,这种方法处理长句子比较难,尤其当句子的长度长于训练集中的语料库 本问提出的模型,当翻译生成一个词语的时候,我们在输入的序列中找到与目标词y(t)最相关的信息,模型预测目标基于这些位置信息的上下文的语义向量 以及 已预测出来的词(y1,y2,...,y(t-1) )  共同进行。 本文提出的
相关文章
相关标签/搜索