【Distill 系列:三】On the Efficacy of Knowledge Distillation

https://arxiv.org/pdf/1910.01348.pdf teacher不是性能越高越好(这个我实验验证得到的结果一致) teacher训练中early stop(未尝试),蒸馏中early stop(我这里不work)有利于提高蒸馏效果 Method 一个潜意识的猜想:性能越高的teacher的蒸馏效果越好 可以看到,随着teacher模型变大,蒸馏的student性能并没有依次
相关文章
相关标签/搜索