Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

目录 方法   加入扰动   与正则化的关系   方法流程 对比实验   固定sigma,改变alpha   在teacher中加噪声 VS 在student中加噪声   其他实验不重要,略  方法   加入扰动 如公式2,在输出层的logits上加入扰动 对一个teacher的扰动不仅可以模拟多个teacher,而且会在loss中加入噪音,产生正则化的效果   与正则化的关系 如上式子所示,加入
相关文章
相关标签/搜索