推荐 :基于知识蒸馏的BERT模型压缩

作者:孙思琦、成宇、甘哲、刘晶晶 本文约 1800字 ,建议阅读 5分钟 。 本文为你介绍“耐心的知识蒸馏”模型。 在过去一年里,语言模型的研究有了许多突破性的进展, 比如GPT用来生成的句子足够以假乱真[1];BERT, XLNet, RoBERTa [2,3,4]等等作为特征提取器更是横扫各大NLP榜单。但是,这些模型的参数量也相当惊人,比如BERT-base有一亿零九百万参数,BERT-la
相关文章
相关标签/搜索