attention is all you need 论文笔记

时间 2021-01-08

原文原文链接

序列转换模型是基于复杂的RNN或者CNN(Encoder-Decoder)，性能最好的模型是在Encoder和Decoder之间加上attention。提出一种新的网络结构(transformer)，而是完全依赖于注意机制来绘制输入和输出之间的全局依赖关系，完全省略了递归和卷积。优点高并行性、训练时间更短。 2014年WMT英德翻译任务中达到28.4 BLEU，比现有的最佳结果(包括集