推荐：基于知识蒸馏的BERT模型压缩

时间 2020-12-30

原文原文链接

作者：孙思琦、成宇、甘哲、刘晶晶本文约 1800字，建议阅读 5分钟。本文为你介绍“耐心的知识蒸馏”模型。在过去一年里，语言模型的研究有了许多突破性的进展，比如GPT用来生成的句子足够以假乱真[1]；BERT, XLNet, RoBERTa [2,3,4]等等作为特征提取器更是横扫各大NLP榜单。但是，这些模型的参数量也相当惊人，比如BERT-base有一亿零九百万参数，BERT-la