Transformer: Attention的集大成者

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系, 以下是要写的文章,本文是这个系列的第一篇, 目前已有其他篇章放在公众号【雨石记】上,欢迎点击下面目录任何一个链接转往公众号: Transformer:Attention集大成者 GPT-1 & 2: 预训练+微调带来的奇迹 Bert: 双向预训练+微调 Bert与模型压缩 Bert
相关文章
相关标签/搜索