深度学习目标检测(object detection)系列（四） Faster R-CNN

时间 2019-11-30

标签深度学习目标检测 object detection 系列 faster cnn 繁體版

原文原文链接

Faster R-CNN简介

RBG团队在2015年，与Fast R-CNN同年推出了Faster R-CNN，咱们先从头回顾下Object Detection任务中各个网络的发展，首先R-CNN用分类+bounding box解决了目标检测问题，SPP-Net解决了卷积共享计算问题，Fast R-CNN解决了end-to-end训练的问题，那么最后还能下一个ss算法，依旧**于网络，是一个单独的部分，然而这个算法须要大概2秒的时间，这个点是R-CNN系列的性能瓶颈，全部Fast R-CNN是没有什么实时性的。那么Faster R-CNN的出现就是为了解决这个瓶颈问题。html

在Faster R-CNN中提出了RPN网络，Region Proposal Network（区域建议网络）以代替原来的ss算法，能够简单的理解为：算法

Faster R-CNN =Fast R-CNN+RPN-ss算法网络

因此，能够说除了RPN，Faster R-CNN剩下的地方与Fast R-CNN是同样的，那么理解Faster R-CNN的关键其实理解RPN。函数

RPN网络结构

首先，上面这张图说明了RPN在Faster R-CNN中的位置，它在CNN卷积后的特征图上作区域建议（大约300个），并根据RPN生成的区域建议对feature maps作提取，并对提取后的特征作RoI pooling。在RoI pooling以后的东西就和Fast R-CNN同样了。

因此RPN的输入是卷积后的特征图，输出是多个打过度的建议框，所谓打分是对框中是不是物体打分，建议框是四个值(x,y,w,h)。性能

RPN是一种全卷积网络，它的前几层卷积层和Faster R-CNN的前五层是同样的，因此RPN是在进一步的共享卷积层的计算，以下降区域建议的时间消耗。学习

也是由于共享卷积的缘由，因此咱们通常认为RPN只有两层。而RPN前面到底有几层，决定于Faster R-CNN选择哪一种初始模型，若是是AlexNet的话，那就是5层，若是是ZFNet的话，也是5层，若是是VGG16的话，就是13层，等等。测试

那么咱们仍是用AlexNet举例好了，此时的conv5特征图的尺寸为1313256，也就是这一层的特征别送入到RPN中，RPN在这个特征图上用33256的卷积核，一共用了256个。那么卷积核一次卷积以后的特征就是11256，也就是下图中的256-d，以后该特征出两个分支：cdn

第一个分支（reg layer）用4k个11256的卷积核卷积，最后输出4k个数，这里的4是一个建议框的参数，即(x,y,w,h)；htm

第二个分支（cls layer）用2k个11256的卷积核卷积，最后输出2k个数，这里的2是该区域到底有没有物体，即(object,non-object)。blog

那么，k是什么呢？ k是Anchor box（参考框）的类型数，在Faster R-CNN中k=9，分别是3个尺度scale和3个比例ratio，其中：

scale为（128，256，512）

ratio为 1:1，1:2，2:1

参考框的中心就是卷积核的中心。

因此，在conv5层上，用33卷积核每卷积一次，都会生成k个参考框，那么参考框的总数就应该是WHK，如上所说，conv5的尺寸为1313的话，那么生成的Anchor box的总数就是1521个。

而后咱们就会发现经过上面的解释，RPN有一些地方是说不通的，下面咱们一一解释下这些坑：

**1.上面提到Anchor box的总数是1521个，那为何说RPN生成300个左右的区域建议呢？ **

每个参考框都会有一个是否是物体的打分，在检测过程当中RPN计算全部的参考框后会选择其中300个得分最高的区域。

2.参考框中的尺寸为（128，256，512），可是conv5的尺寸只有13*13，在哪里生成这些参考框呢？

这些参考框不是在特征图上生成，而是在原图上，而原图以前的尺寸也不是224*244，这个尺寸是原图通过压缩获得的，因此anchor size的选择必定是要考虑缩放前的原图的尺寸，由于最后anchor超过的图像大小，并无意义。因此RPN在作的是将每一个点产生的9个参考框来映射原始图像，也就是经过4k个位置偏移输出和k个参考框，获得参考框在原始图像中的位置。就像Fast R-CNN中ss算法，其实也是在原图上生成的，最后只是通过了坐标变化才能在conv5上提取。

**3.在卷积核卷积到一个点的时候，输出了9个参考框，可是这9个建议框的特征是相同的，都是256个33256卷积核卷积获得的11256的特征，那么这9个参考框在哪里引导的RPN关注这些区域呢？ **

特征确实是相同的，可是获得的特征最终是要向原图作映射的，以获得最终的区域建议，而相同的特征对应了9种不一样的参考映射方式，因而相同的特征，映射给不一样的参考框时，loss是不一样的。那么哪一种方式是作好的呢，固然是loss最小的那个。因此不一样的9个参考框，它们的区别并不体如今特征上，而是在loss上，咱们下面就看下RPN的损失函数。

RPN损失函数

首先给出函数的公式：

这个公式和Fast R-CNN的多任务损失其实很像，一样是一个在作分类，一个在作回归，而后把两个函数加在一块儿。i是一个batch中anchor box的索引。

用于分类的loss：

这依然是一个负的log值，，Pi为第i个参考框是物体的预测几率，Pi是一个指示函数，若是anchor是物体的话，Pi 就是1；若是anchor是背景，那么Pi* 就是0。

那么若是某一个区域是物体的话，若是pi=1，pi*=1，此时的损失函数为0；同理pi=0的话，损失函数为正无穷。

用于回归的loss：

其中R仍是smooth L1平滑方程：

一样的背景没有边界框，因此须要Pi* Lreg。

而ti与ti*分布对应四个值，分别是x，y，w，h的坐标误差，其中：

x，y，w，h是预测框（就是reg layer的输出）；

xa，ya，wa，ha是anchor参考框；

x*，y*，w*，h*是ground truth框；

ti是预测框与anchor之间的误差，ti是ground truth与anchor之间的误差，那么咱们考虑一种状况，那就是ti与ti与相同了，此时损失函数就是0，那么这意味着：

预测值与anchor之间的误差=ground truth与anchor之间的误差

也就是说预测值彻底等于ground truth。这就是上面提到的注意机制引导RPN关注anchor的过程，当anchor不一样的时候，loss函数是不一样的。因此这是一个反向的过程，咱们选择出来了某一个点上3*3范围内的特征，那么这个特征是物体仍是背景呢，还有就是它对应原图中哪一个区域的时候，效果是最好的呢？这就是RPN要解决的问题。

在这里顺便说一下我的的一个想法，会更方便理解，RPN在conv5上用33的卷积核卷积，那么若是原图上某一个区域在conv5上的大小刚好就是33呢？那么这个卷积就至关于一个全尺寸卷积了，显然它是能够学习到这个区域内的全部特征的，而后咱们再看下这些尺寸，这方便咱们理解为何RPN选择了3*3卷积。

conv5的尺寸为13*13；

卷积为3*3；

原图大小若是是1024；

那么anchor选择为256的时候，它们的比例很是接近：

13/3 = 1024/256

可是原图的尺寸不必定都是1024*1024，因此为了考虑形变与缩放，anchor有9个选择。

Faster R-CNN训练

Faster R-CNN的训练时分步的，可是不是分阶段的，由于end-to-end的问题在fast R-CNN就已经解决了。前面说了Faster R-CNN =Fast R-CNN +RPN，因此训练的过程须要分步来完成，可是每一步都是end-to-end。

Step 1：训练RPN网络；用的是ImageNet上的初始模型，由于RPN是由本身的损失函数的，因此在这里能够先把RPN训练起来，可是在组合mini-batch作梯度回传的时候为了不负样本（背景）偏多的状况，会人为的咱们随机地在一个图像中选择256个anchor，其中采样的正负anchor的比例是1:1。若是一个图像中的正样本数小于128，咱们就用负样本填补这个mini-batch。

Step 2：训练Fast R-CNN；训练好RPN以后，单独训练Fast R-CNN，此时Fast R-CNN是不与RPN共享卷积层的，也就是初始模型仍是ImageNet上获得的，用的区域建议是RPN生成的，训练的过程在以前的文章就就介绍了。

Step 3：调优RPN，在这一步中将再次训练RPN，这不过此次的前五层卷积核与Fast R-CNN共享，用Step2中的结果初始化RPN，并固定卷积层，finetune剩下的层。

Step 4：调优Fast R-CNN，此时用的区域建议是Step3中调优后的RPN生成的，一样是固定了卷积层，finetune剩下的层。

Faster R-CNN性能评价

上面这张图说明了Faster R-CNN的单图测试时间与mAP，能够看到，Fast R-CNN与R-CNN的时间与Object Detection系列（三） Fast R-CNN的说法不同了，这是由于后者加上了ss算法的时间，大概2s左右的样子。

单图测试时间的大幅缩减，让Fast R-CNN可以真正意义上实现实时检测任务。可是吧，Faster R-CNN的性能评价是在8个K40 GPU上作出来的。

原文：quant.la/Article/Vie…