BERT模型蒸馏有哪些方法?

©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|问答系统 我们都知道预训练模型的标准范式: pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如:Bert 的 MLM,NSP 等等。 finetune-将预训练过程中所学到的知识应用到子任务中,以达到优异的效果。 预训练模型在各个领域虽然带来了巨大的提升,但是也有一些致命的问题
相关文章
相关标签/搜索