Attention Is All You Need

Attention Is All You Need阅读笔记 本文阅读初衷是了解到paddlehub的enire是借鉴了这篇文章的算法。因此决定来看一下这篇经典论文。 摘要 CNN和RNN是现在主流的序列预测模型。这类序列预测模型包含一个编码器和一个解码器。性能最优的模型是通过一个注意力机制连接编码器和解码器的模型。我们在这里提出一个新的模型架构,the Transformer。它依赖于注意力机制,
相关文章
相关标签/搜索