Attention is all you need

Abstract 摘要主要的序列转换模型是基于复杂的递归或卷积神经网络,其中包括编码器和解码器。性能最好的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络结构——变形金刚,它完全基于注意力机制,完全省去了递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优,同时具有更大的并行性,并且需要更少的训练时间。我们的模型在2014年WMT英德翻译任务中达到28.4 BLEU。
相关文章
相关标签/搜索