R-CNN , Fast R-CNN , Faster R-CNN原理及区别

时间 2019-12-13

标签 cnn fast faster 原理区别繁體版

原文原文链接

==RCNN==

一、生成候选区域

使用Selective Search（选择性搜索）方法对一张图像生成约2000-3000个候选区域，基本思路以下：
（1）使用一种过度割手段，将图像分割成小区域
（2）查看现有小区域，合并可能性最高的两个区域，重复直到整张图像合并成一个区域位置。优先合并如下区域：github

颜色（颜色直方图）相近的
纹理（梯度直方图）相近的
合并后总面积小的
合并后，总面积在其BBOX中所占比例大的
在合并时须保证合并操做的尺度较为均匀，避免一个大区域陆续“吃掉”其它小区域，保证合并后形状规则。
（3）输出全部曾经存在过的区域，即所谓候选区域

二、特征提取

使用深度网络提取特征以前，首先把候选区域归一化成同一尺寸227×227。
使用CNN模型进行训练，例如AlexNet，通常会略做简化。网络

三、类别判断

对每一类目标，使用一个线性SVM二类分类器进行判别。
输入为深度网络（如上图的AlexNet）输出的4096维特征，输出是否属于此类。框架

四、位置精修

目标检测的衡量标准是重叠面积：许多看似准确的检测结果，每每由于候选框不够准确，
重叠面积很小，故须要一个位置精修步骤，对于每个类，训练一个线性回归模型去断定这个框是否框得完美。学习

==Fast R-CNN==

Fast R-CNN主要解决R-CNN的如下问题：测试

一、训练、测试时速度慢

R-CNN的一张图像内候选框之间存在大量重叠，提取特征操做冗余。
而Fast R-CNN将整张图像归一化后直接送入深度网络，紧接着送入从这幅图像上提取出的候选区域。
这些候选区域的前几层特征不须要再重复计算。.net

二、训练所需空间大

R-CNN中独立的分类器和回归器须要大量特征做为训练样本。Fast R-CNN把类别判断和位置精调统一用深度网络实现，再也不须要额外存储。code

下面进行详细介绍

在特征提取阶段，经过CNN（如AlexNet）中的conv、pooling、relu等操做都不须要固定大小尺寸的输入，
所以，在原始图片上执行这些操做后，输入图片尺寸不一样将会致使获得的feature map（特征图）尺寸也不一样，这样就不能直接接到一个全链接层进行分类。
在Fast R-CNN中，做者提出了一个叫作ROI Pooling的网络层，这个网络层能够把不一样大小的输入映射到一个固定尺度的特征向量。
ROI Pooling层将每一个候选区域均匀分红M×N块，对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层。
这样虽然输入的图片尺寸不一样，获得的feature map（特征图）尺寸也不一样，
可是能够加入这个神奇的ROI Pooling层，对每一个region都提取一个固定维度的特征表示，就可再经过正常的softmax进行类型识别。
在分类回归阶段，在R-CNN中，先生成候选框，而后再经过CNN提取特征，以后再用SVM分类，最后再作回归获得具体位置（bbox regression）。
而在Fast R-CNN中，做者巧妙的把最后的bbox regression也放进了神经网络内部，与区域分类合并成为了一个multi-task模型
实验代表，这两个任务可以共享卷积特征，而且相互促进。
Fast R-CNN很重要的一个贡献是成功地让人们看到了Region Proposal+CNN（候选区域+卷积神经网络）这一框架实时检测的但愿，原来多类检测真的能够在保证准确率的同时提高处理速度。

==Faster R-CNN==

在Faster R-CNN中加入一个提取边缘的神经网络，也就说找候选框的工做也交给神经网络来作了。
这样，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架以内。blog

Faster R-CNN能够简单地当作是“区域生成网络+Fast R-CNN”的模型，用区域生成网络（Region Proposal Network，简称RPN）来代替Fast R-CNN中的Selective Search（选择性搜索）方法。图片

RPN的工做步骤以下：

在feature map（特征图）上滑动窗口
建一个神经网络用于物体分类+框位置的回归
滑动窗口的位置提供了物体的大致位置信息
框的回归提供了框更精确的位置

==总结==

R-CNN、Fast R-CNN、Faster R-CNN一路走来，基于深度学习目标检测的流程变得愈来愈精简、精度愈来愈高、速度也愈来愈快。
基于region proposal（候选区域）的R-CNN系列目标检测方法是目标检测技术领域中的最主要分支之一。

print_r('点个赞吧')；
var_dump('点个赞吧')；
NSLog(@"点个赞吧！")
System.out.println("点个赞吧!");
console.log("点个赞吧!");
print("点个赞吧!");
printf("点个赞吧!\n");
cout << "点个赞吧!" << endl;
Console.WriteLine("点个赞吧!");
fmt.Println("点个赞吧!")
Response.Write("点个赞吧")；
alert（’点个赞吧’）