attention is all you need 论文笔记

序列转换模型是基于复杂的RNN或者CNN(Encoder-Decoder),性能最好的模型是在Encoder和Decoder之间加上attention。 提出一种新的网络结构(transformer),而是完全依赖于注意机制来绘制输入和输出之间的全局依赖关系,完全省略了递归和卷积。   优点高并行性、训练时间更短。   2014年WMT英德翻译任务中达到28.4 BLEU,比现有的最佳结果(包括集
相关文章
相关标签/搜索