结合量化的知识蒸馏(Quantization Mimic)

"Quantization Mimic Towards Very Tiny CNN for Object Detection"这篇文章经过将知识蒸馏(Knowledge Distillation)与量化技术(Model Quantization)有效结合,可以诱导训练生成纤细、但性能良好的目标检测网络(主干网络通道数少、层数浅的R-FCN或Faster RCNN)。Quantization Mimic中量化技术可以缩小参数搜索空间,从而带来正则化效应,有效下降过拟合;而知识蒸馏则负责将复杂教师网络的知识迁移至学生网络。网络

Quantization Mimic的总体框架如上图所示,首先训练一个性能优越的全精度教师网络(如R-FCN-VGG);再将教师网络予以量化,得到量化后的Feature Maps输出;而后设计一个纤细的学生网络(如R-FCN-VGG-1-32),并予以量化;最后在诱导训练期间,比较教师网络与学生网络的量化输出(即L2 loss),完成知识迁移。框架

量化技术选择线性均匀方式,缘由在于文章以R-FCN或Faster-RCNN做为benchmark,而这两种检测网络更关注ROI内部的激活响应,一般这些响应比较剧烈,所以均匀量化可以更好地保留输出信息。反观INQ采用的非均匀量化可以更好地描述通常性的激活或权重分布(非均匀、近高斯分布)。文章采用的量化表示以下:性能

引入知识蒸馏以后,全精度形式的总loss以下:设计

上式中,Lm表示教师网络与学生网络中RPN输出的ROI范围内Feature Maps之间的L2 Loss(Hint within ROIs),其量化形式以下:3d

为了可以让tiny network输出的FMs与teacher network输出的FMs相匹配(维度匹配),须要将低维度流形经过量化推至高纬度离散空间,具体以下:blog

文章最后经过Quantization Mimic取得了良好的量化与迁移效果,尤为是教师网络与学生网络均予以量化的状况下,具体见文章实验部分。get

Paper连接:https://arxiv.org/abs/1805.02152it