Transformer: Attention的集大成者

时间 2020-12-23

原文原文链接

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系，以下是要写的文章，本文是这个系列的第一篇, 目前已有其他篇章放在公众号【雨石记】上，欢迎点击下面目录任何一个链接转往公众号： Transformer:Attention集大成者 GPT-1 & 2: 预训练+微调带来的奇迹 Bert: 双向预训练+微调 Bert与模型压缩 Bert