Attention Is All You Need

Attention Is All You Need 主流的sequence transduction模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络架构–Transformer,完全基于注意力机制,完全不需要递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更胜一筹,同时可并行性更强,所需的训练时
相关文章
相关标签/搜索