生成模型学习笔记(2):Transformer

Transformer 学习笔记 本部分来源于论文 《Attention Is All You Need》 0 摘要 提出了一种新的模型 Transformer ,完全基于注意力机制,彻底省去了卷积和递归。 在两个机器翻译的任务上证明了该模型质量上更优同时由于并行化更好导致所需的训练时间更少。 可以很好的应用到其他的任务上。 1 介绍 RNN由于其固有的训练顺序导致很难并行化训练。 大部分情况下注
相关文章
相关标签/搜索