摘要:在通用目标检测算法,空洞卷积能有效地提高网络的感觉野,进而提高算法的性能。本次解读的文章提出了一种空洞卷积变体及对应的空洞卷积搜索方法,充分探索空洞卷积的潜力,进一步提高网络模型的性能。
本文分享自华为云社区《论文解读系列十:空洞卷积框架搜索》,原文做者:我想静静 。算法
空洞卷积是标准卷积神经网络算子的一种变体,能够控制有效的感觉野并处理对象的大尺度方差,而无需引入额外的计算。可是,在文献中不多讨论针对不一样的数据,如何设计调整空洞卷积使其获得更好的感觉野,进而提高模型性能。为了充分挖掘其潜力,本文提出了一种新的空洞卷积变体,即inception (dilated)卷积,其中卷积在不一样轴,通道和层之间具备独立的空洞。segmentfault
同时,本文提出了一种基于统计优化的简单而高效的空洞搜索算法(EDO,effective dilation search),自适应搜索对训练数据友好的空洞卷积配置方法。该搜索方法以零成本方式运行,该方法极其快速地应用于大规模数据集。网络
在不一样任务中对于输入图像的大小和目标对象的不一样,有效感觉野(effictive reveptive field,ERF)的要求也有所不一样。图像分类输入的尺寸比较小,目标检测中输入的size而比较大,目标的范围也很大。即便对于固定网络的同一任务,某一层卷积的最优解ERF也和标注卷积不必定同样,因而为了适应不一样ERF的要求,须要针对不一样任务提供一种通用的ERF算法。框架
本文提出一种膨胀卷积的变体,Inception卷积,他包含多种膨胀模式以下图:性能
Incetption 卷积提供了一个密集可能的ERF范围,该文提供了一种高效的膨胀优化算法(EOD),其中超网络的每层都是一个标准的卷积操做,该卷积包含了全部可能的膨胀模式。对每一层的选择,经过最小化原始卷积层和与所选膨胀模式的卷积的指望偏差,使用一个预训练的权值解决选择问题。具体流程以下图所示:测试
上图为EDO的算法概述,以resnet50为例,咱们先在训练数据上训练得到一个bottleneck卷积内核为(2dmax + 1) × (2dmax + 1)的res50。这个例子里,supernet的内核为5*5,因此dmax=2。而后对于卷积运算的每一个filter的输出,咱们要计算与预期输出的L1偏差,选择最小的(这个例子里是E=3)。最后从新安排filter使相同的空洞卷积排在一块儿,就成为了咱们的inception convolution。优化
实证结果代表,本文方法在普遍的Baseline测试中得到了一致的性能提高。例如,经过简单地将ResNet-50主干中的3x3标准卷积替换为Inception Conv,将Faster-RCNN在MS-COCO上的mAP从36.4%提升到39.2%。此外,在ResNet-101骨干网中使用相同的替代方法,在自下而上的人体姿式估计上将AP得分从COCO val2017的AP得分从60.2%大幅提升到68.5%。es5