结合量化的知识蒸馏（Quantization Mimic）

时间 2019-12-12 标签结合量化知识蒸馏 quantization mimic

"Quantization Mimic Towards Very Tiny CNN for Object Detection"这篇文章经过将知识蒸馏（Knowledge Distillation）与量化技术（Model Quantization）有效结合，可以诱导训练生成纤细、但性能良好的目标检测网络（主干网络通道数少、层数浅的R-FCN或Faster RCNN）。Quantization Mimic中量化技术可以缩小参数搜索空间，从而带来正则化效应，有效下降过拟合；而知识蒸馏则负责将复杂教师网络的知识迁移至学生网络。网络

Quantization Mimic的总体框架如上图所示，首先训练一个性能优越的全精度教师网络（如R-FCN-VGG）；再将教师网络予以量化，得到量化后的Feature Maps输出；而后设计一个纤细的学生网络（如R-FCN-VGG-1-32），并予以量化；最后在诱导训练期间，比较教师网络与学生网络的量化输出（即L2 loss），完成知识迁移。框架

量化技术选择线性均匀方式，缘由在于文章以R-FCN或Faster-RCNN做为benchmark，而这两种检测网络更关注ROI内部的激活响应，一般这些响应比较剧烈，所以均匀量化可以更好地保留输出信息。反观INQ采用的非均匀量化可以更好地描述通常性的激活或权重分布（非均匀、近高斯分布）。文章采用的量化表示以下：性能

引入知识蒸馏以后，全精度形式的总loss以下：设计

上式中，Lm表示教师网络与学生网络中RPN输出的ROI范围内Feature Maps之间的L2 Loss（Hint within ROIs），其量化形式以下：3d

为了可以让tiny network输出的FMs与teacher network输出的FMs相匹配（维度匹配），须要将低维度流形经过量化推至高纬度离散空间，具体以下：blog

文章最后经过Quantization Mimic取得了良好的量化与迁移效果，尤为是教师网络与学生网络均予以量化的状况下，具体见文章实验部分。get

Paper连接：https://arxiv.org/abs/1805.02152it