深度学习模型轻量化(下)

深度学习模型轻量化(下)web 2.4 蒸馏数组 2.4.1 蒸馏流程缓存 蒸馏本质是student对teacher的拟合,从teacher中汲取营养,学到知识,不只仅能够用到模型压缩和加速中。蒸馏常见流程以下图所示网络 老师和学生能够是不一样的网络结构,好比BERT蒸馏到BiLSTM网络。但通常类似网络结构,蒸馏效果会更好。多线程 整体loss为 soft_label_loss + hard_l
相关文章
相关标签/搜索