论文笔记Transformer:Attention is all you need

1 介绍 主流的序列转换模型是基于复杂的循环或卷积神经网络,它们包括一个encoder和一个decoder。表现最好的模型也是用attention 机制连接encoder和decoder。我们提出了一个新的简单网络模型,即Transformer,该模型仅仅依靠attention机制,不用循环或卷积网络。实验结果显示该模型不仅质量很好,而且可以并行,需要较少的时间训练。 循环网络模型主要是输入和输出
相关文章
相关标签/搜索