预训练语言模型(PLM)是 NLP 领域的一大热门话题。从 BERT 到 GPT2 再到 XLNet,各类预训练模型层出不穷,很多同窗感叹,「大佬慢点,跟不上了……」那么,这么多预训练模型要怎么学?它们之间有什么关联?为了理清这些问题,来自清华大学的两位本科同窗整理了一份预训练语言模型必读论文列表,还用图的形式整理出了这些模型之间的复杂关系。
Github 项目:github.com/thunlp/PLMp…git
在这个预训练模型论文列表项目中,两位同窗首先给出了一份预训练语言模型的关系图:github
图中列出了 BERT、GPT、XLNet、ERNIE 等你们熟知的模型以及它们之间的关系。以 BERT 和清华大学提出的 ERNIE 为例,张正彦等人曾在论文中指出,BERT 等预训练语言模型只能学习语言相关的信息,学习不到「知识」相关的信息。所以他们提出用知识图谱加强 BERT 的预训练效果,让预训练语言模型也能变得「有文化」。在这张图中咱们能够清楚地看到论文中阐述的这种关系,即 BERT+知识图谱→ERNIE(清华版)。这种简化版的展现对于初学者理清思路很是有帮助。
算法
除了这张关系图,两位同窗还给出了一份预训练语言模型必读论文列表。列表分为三个部分:模型、知识蒸馏与模型压缩以及相关分析论文。机器之心曾经介绍过其中的一些论文,读者能够根据连接找到相关论文中文介绍。
网络
模型部分包含 34 篇论文,列表以下:app
「知识蒸馏与模型压缩」部分包含 11 篇论文,列表以下:
其中,机器之心介绍过的论文以下:
分析部分包含 26 篇论文,列表以下:
参考连接: