微调预训练模型的新姿势——自集成和自蒸馏

文章目录 1、什么是自蒸馏? 2、为什么要自蒸馏? 3、如何进行自蒸馏? 4、通过自蒸馏我们可以得到什么? 转载来源:https://zhuanlan.zhihu.com/p/133804801 论文:Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation 链接:https://arxiv.org/abs/2002.10
相关文章
相关标签/搜索