动手实现 Bahdanau 注意力模型

前一篇我们学习了 seq2seq 模型,从它的模型结构中我们可以看到存在两个瓶颈: 例如,当我们用 seq2seq 翻译一句话时,它的 Encoder 需要将原始句子中的主语,谓语,宾语,以及主谓宾之间的关系等信息都压缩到一个固定长度的上下文向量中,这个向量的长度通常只是 128 或者 256,如果输入数据很长时,就会有很多信息无法被压缩进这么短的向量中。 另一个瓶颈是,这个上下文向量在 Deco
相关文章
相关标签/搜索