全卷积网络 FCN 详解

时间 2019-11-11

原文原文链接

背景

CNN可以对图片进行分类，但是怎么样才能识别图片中特定部分的物体，在2015年以前仍是一个世界难题。神经网络大神Jonathan Long发表了《Fully Convolutional Networks for Semantic Segmentation》在图像语义分割挖了一个坑，因而无穷无尽的人往坑里面跳。数组

全卷积网络 Fully Convolutional Networks

CNN 与 FCN

一般CNN网络在卷积层以后会接上若干个全链接层, 将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。以AlexNet为表明的经典CNN结构适合于图像级的分类和回归任务，由于它们最后都指望获得整个输入图像的一个数值描述（几率），好比AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的几率(softmax归一化)。网络

栗子：下图中的猫, 输入AlexNet, 获得一个长为1000的输出向量, 表示输入图像属于每一类的几率, 其中在“tabby cat”这一类统计几率最高。ide

FCN对图像进行像素级的分类，从而解决了语义级别的图像分割（semantic segmentation）问题。与经典的CNN在卷积层以后使用全链接层获得固定长度的特征向量进行分类（全联接层＋softmax输出）不一样，FCN能够接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸，从而能够对每一个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。函数

最后逐个像素计算softmax分类的损失, 至关于每个像素对应一个训练样本。下图是Longjon用于语义分割所采用的全卷积网络(FCN)的结构示意图：性能

简单的来讲，FCN与CNN的区域在把于CNN最后的全链接层换成卷积层，输出的是一张已经Label好的图片。学习

其实，CNN的强大之处在于它的多层结构能自动学习特征，而且能够学习到多个层次的特征：较浅的卷积层感知域较小，学习到一些局部区域的特征；较深的卷积层具备较大的感知域，可以学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更低，从而有助于识别性能的提升。下图CNN分类网络的示意图：atom

这些抽象的特征对分类颇有帮助，能够很好地判断出一幅图像中包含什么类别的物体，可是由于丢失了一些物体的细节，不能很好地给出物体的具体轮廓、指出每一个像素具体属于哪一个物体，所以作到精确的分割就颇有难度。lua

传统的基于CNN的分割方法：为了对一个像素分类，使用该像素周围的一个图像块做为CNN的输入用于训练和预测。这种方法有几个缺点：一是存储开销很大。例如对每一个像素使用的图像块的大小为15x15，而后不断滑动窗口，每次滑动的窗口给CNN进行判别分类，所以则所需的存储空间根据滑动窗口的次数和大小急剧上升。二是计算效率低下。相邻的像素块基本上是重复的，针对每一个像素块逐个计算卷积，这种计算也有很大程度上的重复。三是像素块大小的限制了感知区域的大小。一般像素块的大小比整幅图像的大小小不少，只能提取一些局部的特征，从而致使分类的性能受到限制。spa

而全卷积网络(FCN)则是从抽象的特征中恢复出每一个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。图片

全链接层 -> 成卷积层

全链接层和卷积层之间惟一的不一样就是卷积层中的神经元只与输入数据中的一个局部区域链接，而且在卷积列中的神经元共享参数。然而在两类层中，神经元都是计算点积，因此它们的函数形式是同样的。所以，将此二者相互转化是可能的：

对于任一个卷积层，都存在一个能实现和它同样的前向传播函数的全链接层。权重矩阵是一个巨大的矩阵，除了某些特定块，其他部分都是零。而在其中大部分块中，元素都是相等的。
相反，任何全链接层均可以被转化为卷积层。好比，一个

全链接层转化为卷积层：在两种变换中，将全链接层转化为卷积层在实际运用中更加有用。假设一个卷积神经网络的输入是

针对第一个链接区域是[7x7x512]的全链接层，令其滤波器尺寸为F=7，这样输出数据体就为[1x1x4096]了。
针对第二个全链接层，令其滤波器尺寸为F=1，这样输出数据体为[1x1x4096]。
对最后一个全链接层也作相似的，令其F=1，最终输出为[1x1x1000]

实际操做中，每次这样的变换都须要把全链接层的权重W重塑成卷积层的滤波器。那么这样的转化有什么做用呢？它在下面的状况下能够更高效：让卷积网络在一张更大的输入图片上滑动，获得多个输出，这样的转化可让咱们在单个向前传播的过程当中完成上述的操做。

举个栗子：若是咱们想让224×224尺寸的浮窗，以步长为32在384×384的图片上滑动，把每一个经停的位置都带入卷积网络，最后获得6×6个位置的类别得分。上述的把全链接层转换成卷积层的作法会更简便。若是224×224的输入图片通过卷积层和下采样层以后获得了[7x7x512]的数组，那么，384×384的大图片直接通过一样的卷积层和下采样层以后会获得[12x12x512]的数组。而后再通过上面由3个全链接层转化获得的3个卷积层，最终获得[6x6x1000]的输出((12 – 7)/1 + 1 = 6)。这个结果正是浮窗在原图经停的6×6个位置的得分！

面对384×384的图像，让（含全链接层）的初始卷积神经网络以32像素的步长独立对图像中的224×224块进行屡次评价，其效果和使用把全链接层变换为卷积层后的卷积神经网络进行一次前向传播是同样的。

Evaluating the original ConvNet (with FC layers) independently across 224x224 crops of the 384x384 image in strides of 32 pixels gives an identical result to forwarding the converted ConvNet one time.

以下图所示，FCN将传统CNN中的全链接层转化成卷积层，对应CNN网络FCN把最后三层全链接层转换成为三层卷积层。在传统的CNN结构中，前5层是卷积层，第6层和第7层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个不一样类别的几率。FCN将这3层表示为卷积层，卷积核的大小 (通道数，宽，高) 分别为 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去数字上并无什么差异，可是卷积跟全链接是不同的概念和计算过程，使用的是以前CNN已经训练好的权值和偏置，可是不同的在于权值和偏置是有本身的范围，属于本身的一个卷积核。所以FCN网络中全部的层都是卷积层，故称为全卷积网络。

下图是一个全卷积层，与上图不同的是图像对应的大小下标，CNN中输入的图像大小是赞成固定resize成 227x227 大小的图像，第一层pooling后为55x55，第二层pooling后图像大小为27x27，第五层pooling后的图像大小为13*13。而FCN输入的图像是H*W大小，第一层pooling后变为原图大小的1/4，第二层变为原图大小的1/8，第五层变为原图大小的1/16，第八层变为原图大小的1/32（勘误：其实真正代码当中第一层是1/2，以此类推）。

通过屡次卷积和pooling之后，获得的图像愈来愈小，分辨率愈来愈低。其中图像到

最后的输出是1000张heatmap通过upsampling变为原图大小的图片，为了对每一个像素进行分类预测label成最后已经进行语义分割的图像，这里有一个小trick，就是最后经过逐个像素地求其在1000张图像该像素位置的最大数值描述（几率）做为该像素的分类。所以产生了一张已经分类好的图片，以下图右侧有狗狗和猫猫的图。

upsampling

相较于使用被转化前的原始卷积神经网络对全部36个位置进行迭代计算，使用转化后的卷积神经网络进行一次前向传播计算要高效得多，由于36次计算都在共享计算资源。这一技巧在实践中常用，一次来得到更好的结果。好比，一般将一张图像尺寸变得更大，而后使用变换后的卷积神经网络来对空间上不少不一样位置进行评价获得分类评分，而后在求这些分值的平均值。

最后，若是咱们想用步长小于32的浮窗怎么办？用屡次的向前传播就能够解决。好比咱们想用步长为16的浮窗。那么先使用原图在转化后的卷积网络执行向前传播，而后分别沿宽度，沿高度，最后同时沿宽度和高度，把原始图片分别平移16个像素，而后把这些平移以后的图分别带入卷积网络。

以下图所示，当图片在网络中通过处理后变成越小的图片，其特征也越明显，就像图像中颜色所示，固然啦，最后一层的图片再也不是一个1个像素的图片，而是原图像 H/32xW/32 大小的图，这里为了简化而画成一个像素而已。

以下图所示，对原图像进行卷积conv一、pool1后原图像缩小为1/2；以后对图像进行第二次conv二、pool2后图像缩小为1/4；接着继续对图像进行第三次卷积操做conv三、pool3缩小为原图像的1/8，此时保留pool3的featureMap；接着继续对图像进行第四次卷积操做conv四、pool4，缩小为原图像的1/16，保留pool4的featureMap；最后对图像进行第五次卷积操做conv五、pool5，缩小为原图像的1/32，而后把原来CNN操做中的全链接变成卷积操做conv六、conv7，图像的featureMap数量改变可是图像大小依然为原图的1/32，此时图像再也不叫featureMap而是叫heatMap。

如今咱们有1/32尺寸的heatMap，1/16尺寸的featureMap和1/8尺寸的featureMap，1/32尺寸的heatMap进行upsampling操做以后，由于这样的操做还原的图片仅仅是conv5中的卷积核中的特征，限于精度问题不可以很好地还原图像当中的特征，所以在这里向前迭代。把conv4中的卷积核对上一次upsampling以后的图进行反卷积补充细节（至关于一个差值过程），最后把conv3中的卷积核对刚才upsampling以后的图像进行再次反卷积补充细节，最后就完成了整个图像的还原。

缺点

在这里咱们要注意的是FCN的缺点：

是获得的结果仍是不够精细。进行8倍上采样虽然比32倍的效果好了不少，可是上采样的结果仍是比较模糊和平滑，对图像中的细节不敏感。
是对各个像素进行分类，没有充分考虑像素与像素之间的关系。忽略了在一般的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺少空间一致性。

全卷积网络 FCN 详解

背景

全卷积网络 Fully Convolutional Networks

CNN 与 FCN

全链接层 -> 成卷积层

upsampling

缺点

小结