Attention Is All You Need

https://arxiv.org/pdf/1706.03762.pdf 摘要 主流的基于Encoder-Decoder的序列转换模型主要是基于复杂的递归或者卷积网络。现在好的模型还会加上一层聚焦(attention)机制。这篇文章我们提出一种新的网络框架,成为:Transformer,主要是基于attention机制,rnn和cnn作为补充。这种方法在准确率和训练速度上面取得了相当不错的效果 介
相关文章
相关标签/搜索