Attention模型

时间 2020-12-30

原文原文链接

1、注意力模型的直观理解我们以前用过这种Seq2Seq的编码解码架构（a Encoder-Decoder architecture）来完成机器翻译的任务。当使用RNN读入一个句子时候，另一个就会输出一个句子。这种模型对于短句子有用，但是长句子却效果不好。如图：可以看到随着句子长度增长，Bleu Score在下降。因为上面的模型要记住一整个很长的法语句子，然后在Decoder中输出。而人工翻译可