Attention原理图解(非常详细)

1.前言 希望大家结合上一篇博文讲的seq2seq详细总结来看,这样的模型其实是存在缺点的: 遗忘:输入文本很长时,语义向量c 偏向于记住靠近它的几个单词,它的运行机制相当于读完整个文本再去做翻译,而我们人类会一句一句的翻译,这样就引入了Attention 机制 它与 seq2seq 最大的不同是: seq2seq 的语义向量 c 是固定的,而Attention 每个时刻的 语义向量 c 不同 s
相关文章
相关标签/搜索