预训练语言模型 | (2) transformer

原文链接 目录 1. 背景 2. transformer流程与技术细节 3. 总结 1. 背景 17年之前,语言模型都是通过rnn,lstm来建模,这样虽然可以学习上下文之间的关系,但是无法并行化,给模型的训练和推理带来了困难,因此论文提出了一种完全基于attention来对语言建模的模型,叫做transformer。transformer摆脱了nlp任务对于rnn,lstm的依赖,使用了self
相关文章
相关标签/搜索