Attention Is All You Need

摘要:以复杂循环或卷积神经网络为基础的显性序列转化模型,包括编码和解码。最好表现的模型也连接编码和解码通过注意力机制。我们提出一种新的简单网络架构,Transformer, 只基于注意力机制,丢弃循环和卷积网络。在两个机器翻译任务上的实验显示这些模型在质量上更好,并能更好并行化,要求更少时间训练。 1 简介 循环网络,LSTM和门循环网络是在序列建模和转化问题例如语言建模和机器翻译任务中最好的方法
相关文章
相关标签/搜索