知识蒸馏Knowledge Distillation论文汇总

FITNETS: HINTS FOR THIN DEEP NETS 论文链接 该论文扩展了知识蒸馏的方法,student网络比teacher更深、更“瘦”,不仅使用teacher的输出作为训练student的soft targets,而且使用teacher学到的中间表示(intermediate representations)作为hint,改进学生的训练过程和最终表现。更深的模型泛化性能更好,使
相关文章
相关标签/搜索