论文阅读笔记五十九:Res2Net: A New Multi-scale Backbone Architecture(CVPR2019)

 

论文原址:https://arxiv.org/abs/1904.01169网络

摘要性能

       视觉任务中多尺寸的特征表示十分重要,做为backbone的CNN的对尺寸表征能力越强,性能提高越大。目前,大多数多尺寸的表示方法是layer-wise的。本文提出的Res2Net经过在单一残差块中对残差链接进行分级,进而能够达到细粒度层级的多尺度表征,同时,提升了网络每层的感觉野大小。该Res2Net结构能够嵌入到其余网络模型中。ui

介绍spa

       在天然场景中,视觉模式常常表现多尺寸特征。以下图所示,(1)一张图片中可能会存在不一样尺寸的物体。好比,沙发及被子的大小是不一样的。(2)一个物体自身的上下文信息可能会覆盖比自身更大范围的区域。好比,依赖于桌子的上下文信息,进而判断桌子上的黑色斑点是杯子仍是笔筒。(3)不一样尺寸的感知信息对于像细粒度分类及分割等对于理解目标物局部信息的任务十分重要。3d

 

       为了得到多尺寸表示能力,要求特征提取能够以较大范围的感觉野来描述不一样尺寸的 object/part/context。CNN经过简单的堆叠卷积操做获得coarse-to-fine的多尺寸特征。早期的工做像VGG,Alex经过简单的堆积卷积让多尺寸信息成为了可能。后来,经过组合不一样大小的卷积核来得到多尺寸信息,好比Inception系列。做为backbone的CNN表现更高效,多尺寸的表征能力更强。blog

       本文提出了简单高效的多尺寸模块,不一样于之前的模型提升layer-wise的多尺寸表征能力,本文以更精细的水平提升模型的多尺寸表征能力。为此,本文将3x3xn的卷积核替换为3x3xw的group filters,其中,n = w x s。以下图所示,更小的filter group经过相似于残差链接的方式进行链接,从而提升输出的表示数量,首先,将输入分红几部分,一组filter从对应的一组输入feature map中提取信息。前面获得的信息送到另外一组filter中做为输入。重复此操做,知道处理完全部输入feature map。最后,每组输出的feature map经过拼接操做送入1x1的卷积中用于进行特征融合。此方法引入了一个新的维度scale,用于控制group的数量。scale同height,width,cardinality类似,都为基本量,本文实验发现,经过增长scale的数量的提高效果要比其余量要好。图片

Res2Net内存

       上图是backbone网络中比较常见的结构。本文将其中的3x3的卷积核替换为几组小的卷积核并以残差的方式进行链接,在计算力相同的条件下得到更强的多尺寸表征信息。如上图b所示,将输入feature map分为s个subset,由xi表示,,每一个subuset的宽及高相同,可是通道数为输入feature map的1/s。除了x1,每一个xi都有一个3x3的卷积核Ki,其输出由yi表示。同时,子集xi与Ki-1的输出相加并做为Ki的输入。为了忽略参数量,并提升s,x1中并不存在3x3的卷积核,所以,yi的表达式以下backbone

       值得注意的是,每一个3x3的卷积核能够接受来自该层前面的全部分离的特征,每次分类特征通过3x3的卷积处理后,其输出的感觉野要比输入更大,因为不一样的组合方式,Res2Net的输出包含不一样大小及数量的感觉野。在Res2Net中,Split以多尺寸的方式进行处理,有利于提取全局及局部特征。为了融合不一样尺寸的信息,将输出送入到1x1的卷积中。分离拼接操做能够加强卷积的处理能力。为了减小参数量,忽略了第一个group的卷积,这也能够看做是feature map的再利用。get

       本文使用一个s做为控制尺寸维度的参数量。s越大,多尺寸表征能力更强,经过引入拼接操做,并未增长计算及内存消耗。以下图所示,Res2Net能够很方便的与现代模型进行结合。

       

实验

 

Reference

       [1] S. Belongie, J. Malik, and J. Puzicha. Shape matching and object recognition using shape contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(4):509–522, 2002.

       [2] A. Borji, M.-M. Cheng, H. Jiang, and J. Li. Salient object detection: A benchmark. IEEE Transactions on Image Processing, 24(12):5706–5722, 2015.       [3] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille.Deeplab: Semantic image segmentation with deep convolutional nets,atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4):834–848, 2018.

相关文章
相关标签/搜索