Attention Is All You Need

时间 2021-07-14

原文原文链接

Attention Is All You Need 主流的sequence transduction模型是基于复杂的循环或卷积神经网络，包括一个编码器和一个解码器。性能最好的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络架构–Transformer，完全基于注意力机制，完全不需要递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更胜一筹，同时可并行性更强，所需的训练时