本文为您解读SPP-net:网络
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition.net
神经网络在计算机视觉方面的成功得益于卷积神经网络,然而,现有的许多成功的神经网络结构都要求输入为一个固定的尺寸(好比224x224,299x299),传入一张图像,须要对它作拉伸或者裁剪,再输入到网络中进行运算。
blog
然而,裁剪可能会丢失信息,拉伸会使得图像变形,这些因素都提升了视觉任务的门槛,所以,若是能有一种模型可以接收各类尺度的输入,应当可以让视觉任务更加容易完成。图片
深度卷积神经网络中的核心组件有两个,一个是CNN,一个是全链接层,卷积是用filter在图像上平移与图像的局部进行逐位乘法,多个filter则产生多个feature map(特征/特征图),而后能够用pooling操做进一步采样,获得更小的feature map;实际上,咱们并不在乎feature map有多大,不一样图像的feature map彻底能够有不一样的尺寸;可是在后边的具体任务中,好比分类任务,为了输出softmax对应的one-hot层,须要输出固定的尺寸,为了让不一样的输入能共用一套权重参数,要求全链接层的输入尺寸是一致的,逆推回去也就限制了feature map的大小必须一致;而不一样尺寸的输入图片在使用同一套卷积核(filter)的时候,会产生不一样尺寸的feature map,所以才须要将不一样尺寸的输入图片经过裁剪、拉伸调整为相同的尺寸。get
所以突破口有两个,源码
全卷积和卷积的区别在于最后不是用全链接层进行分类, 而是用卷积层,假设咱们要将一个16x16的feature map转为10x1的one-hot分类,则可使用10个1x1卷积核,每一个卷积核对应一个分类,参数数量少了不少,可是…实验结果代表还挺有效的,而且,全卷积+反卷积开辟了图像分割的新思路,能够说是一个开创新的工做了,感兴趣的同窗能够看这篇博客博客
这里咱们详细讲一下SPP
it
SPP中SP(Spatial Pyramid)的思想来源于SPM(Spatial Pyramid Matching),能够参考这篇文章,正如论文Conclusion中说的, Our studies also show that many time-proven techniques/insights in computer vision can still play important roles in deep-networks-based recognition.io
SPM是在不一样的分辨率(尺度)下,对图片进行分割,而后对每一个局部提取特征,将这些特征整合成一个最终的特征,这个特征有宏观有微观(多尺度金字塔),保留了区域特性(不一样的区域特征不一样),而后用特征之间的类似度进行图片间的匹配(matching)。先前咱们提到过,每一个filter会获得一个feature map,SPP的输入则是卷积后的这些feature map,每次将一个feature map在不一样尺度下进行分割,尺度L将图片分割为2^L^个小格子(其实格子数也能够本身定,不必定要分红2^L^个),L为0表明全图;对每一个小格子的作pooling,论文中是max pooling, 实际中也能够用其余,这里不像SPM须要作SIFT之类的特征提取,由于feature map已是卷积层提取过的特征了,将pooling获得的结果拼接起来,就能够获得固定尺寸的feature map。ast
举个例子,一个具备256个filter的卷积层,输出了256个feature map,对于一个640x320的图片,输出的feature map多是32x16的,对于一个640x640的图片,输出的feature map多是32x32的,对256个feature map中的每一个feature map,咱们在4个尺度下对它们作切割,在最粗糙的尺度下切为1个图,次之切为2个子图,接下来是4个子图,8个, 对每一个子图作max pooling,获得其中最大的数,放到最终的特征里,能够获得一个1+2+4+8=15这么长的特征,256个feature则能够获得最终256*15这么长的特征,能够看到,最终的特征尺寸只跟卷积层结构和SP尺度L有关,跟输入图片无关,从而保证了对不一样尺寸的图片都输出同样大小的特征。
其实看到这里,你可能发现了,对不一样尺寸输出相同尺寸特征这个特性,是由pooling操做决定的,像max pooling,sum pooling这些,就是将多个输入聚合为一个值的运算;而Spatial Pyramid只是让特征有更好的组织形式而已。固然,能找到这种有效的特征组织形式也是很值得确定的。但这里有东西仍然值得商榷,max pooling实际上仍是丢了一些信息,虽然经过多层的特征能够将这些信息弥补回来。
而后做者就将这个结构应用到各类网络结构和各类任务里了,而且都取得了很好的效果(说的轻巧,复现一堆论文,改源码,跑大量实验,必定超级累);特别是在检测任务对RCNN的改进上,这个地方比较有意思。在RCNN中,须要将每一个Region Proposal输入卷积层判断属于哪一个分类,而region proposal是方形的,这就致使有不少区域作了重复的卷积运算。
在SPP-net的实验中,
因为整张图只过了一遍卷积,因此比原来的RCNN快了不少,准确率也不差
严格来说SPP-net不是为detection而生的模型,可是SPP-net为RCNN进化到Fast-RCNN起了很大的借鉴做用,值得一读。SPP-net的想法颇有意思,SPP(Spatial Pyramid Pooling)是对网络结构的一种改进,可能由于是华人写的论文,感受很好读,含金量我的感受没有RCNN或者DPM的论文高,可是实验很丰富,从分类任务和检测任务上的各类网络结构证实SPP的有效性