BiDet
本文是清华大学等发表在 CVPR2020 上的针对一阶段或两阶段检测器的二值化工做。因为其有限的表征能力,网络中的信息冗余会形成大量的假正例,显著地下降网络性能。本文提出了一种二值神经网络目标检测方法BiDet, BiDet能经过冗余去除来充分利用二值神经网络在目标检测中的表征能力,经过去除假正例来提升检测精度。具体来讲,本文把信息瓶颈(the information bottleneck IB)准则来作目标检测,限制高层(high-level)特征图的信息量,最大化特征图和目标检测之间的互信息。与此同时,咱们经过learning sparse object priors对假正例移除,使网络的后部专一于对信息检测的预测。在PACAL VOC和COCO数据集上的实验证实,本文的方法优于其余目标检测二值神经网络。html
论文题目:BiDet: An Efficient Binarized Object Detector (CVPR2020) 论文连接:https://openaccess.thecvf.com/content_CVPR_2020/html/Wang_BiDet_An_Efficient_Binarized_Object_Detector_CVPR_2020_paper.html 代码连接:https://github.com/ZiweiWangTHU/BiDet.git
动机
利用 XNOR-Net 的方法对目标检测网络直接进行二值化,网络中的信息冗余(如图(c)和(d)的XNOR的信息内卷)会形成大量的假正例(如图(a)所示)。node
为了去除与任务无关的冗余信息,最小化输入图像和高层次特征图( the high-level feature maps )之间的互信息,以此限制检测器提取的信息量;最大化高层次特征图( the high-level feature maps )和目标检测(location & classification)之间的互信息,以此让检测器保留更多和任务相关的信息。git

本文提出的方法 Bi-Det,检测结果如图 (b) 所示,相比于图 (a) ,假正例大幅度减小,并且不损失目标正例的检测准确性。图(c)和图(d)分别是训练集和测试集的动态信息,横坐标是输入图像和高层次特征图之间的互信息;纵坐标是高层次特征图和目标检测任务之间的互信息。所以,和 XNOR-Net 相比,本文的方法移除了冗余信息,性能较优。二值信息如何能有效的去除冗余信息,而不损伤真正例是值得思考的一个问题。github
方法
信息瓶颈(IB)
信息瓶颈的目标是提取关于任务输入的相关信息,所以 IB 准则在压缩领域被普遍应用。IB 准则致力于最小化输入和学习特征之间的互信息,同时最大化特征图和任务的标准(groundtruth)之间的互信息。目标检测任务从大的步骤上能够看做为马尔可夫过程,如式子 (1) 的马尔科夫链所示:web
其中, X表明输入图像,F 表明 backbone part 输出的高级特征图,L 表明目标的定位,C 表明分类。c#

根据Markov链,IB准则的目标函数能够写成式子(2):微信
是 backbone part 的参数, 是 detection part 的参数。 是随机变量 X 与 Y 之间的互信息。最小化图像输入和高层特征图之间的互信息,以此限制检测器提取的信息量;最大化高层特征图和目标检测部分的互信息,以此让检测器保留更多和任务相关的信息。最终结果保障去除了和目标检测无关的冗余信息。如上图所示,IB准则能应用于 one-stage 和 two-stage detectors。根据互信息的定义,重写式(2):网络
Detection part中的定位和分类是相互独立的(二者在不一样的网络分支中)架构
表明anchor在水平和垂直方向的shift offset; 表明anchor的高和宽的scale offset。框架
Learning Sparse Object Priors
因为二值检测网络中大量的假正例(false positives), Learing sparse object priors 在检测部分可让 detection part 致力于信息预测,有效减小假正例。
以 Faster R-CNN 为例,Faster R-CNN 的核心是 RPN(Region Proposal Network)。RPN 的输入为特征图,输出就是候选框集合,包括各候选框属于前景或背景的几率以及位置坐标,在 RPN 的输出基础上,对全部 anchor box 的前景置信度排序,挑选出前 Top-N 的框做为预选框 proposal, 接着 CNN 作进一步特征提取,最后再进行位置回归和物体种类判断。本文的 Learing sparse object priors 的目的就是减小上面提到的预选框proposal的数量。

基于 RPN,生成了候选框的集合 M,里面的元素取值为1或0。1表明该block mask为前景,0表明该block mask为背景。为了获得 sparse priors ,即用较少的 pridicted positives ,本文最小化block mask M 的 L1 范数。最小化的过程本质上是在减小置信度分数的信息熵。
其中,si 是第 i 个预测的前景物体的置信度分数。sparse priors 的实验结果以下图所示,最后经过NMS去除冗余候选框。所以,输出的前景候选框变得稀疏了,有利于detection part更好的预测信息。

综上所述, BiDet的目标函数以下所示,其中 J1 表明经过信息瓶颈 IB 准则移除冗余信息,充分利用 BNN 的信息表征能力;J2 表明致力于稀疏化 object priors, 有利于 detection part 更好的预测信息。
其中 是 false positive elimination 的超参数。
实验
消融实验

实验对比




神经网络二值量化——ReActNet

神经网络低比特量化——TQT

神经网络低比特量化——DSQ

神经网络架构搜索——二值可微分搜索(BATS)

神经网络架构搜索——可微分搜索(DARTS)
本文分享自微信公众号 - AI异构(gh_ed66a0ffe20a)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。