Attention Is All You Need

时间 2021-08-15

原文原文链接

https://arxiv.org/pdf/1706.03762.pdf 摘要主流的基于Encoder-Decoder的序列转换模型主要是基于复杂的递归或者卷积网络。现在好的模型还会加上一层聚焦(attention)机制。这篇文章我们提出一种新的网络框架，成为：Transformer，主要是基于attention机制，rnn和cnn作为补充。这种方法在准确率和训练速度上面取得了相当不错的效果介