SSD物体检测算法详解

时间 2019-11-06

标签 ssd 物体检测算法详解栏目存储繁體版

原文原文链接

物体检测算法，按算法结构，能够分为one-stage和two-stage两类。算法

two-stage经典算法主要是R-CNN族，以准确度见长，速度稍慢，通常不如one-stage。ide

one-stage算法主要包括YOLO、SSD、CornerNet等，以速度快见长，准确度通常不如two-stage。本文分享的SSD就是经典的one-stage算法。学习

上图是物体检测算法整个演化坐标轴，能够看出SSD的发布，是在Faster R-CNN和YOLO v1以后。YOLO v1是one-stage检测算法的开山之做，速度碾压Faster R-CNN，但准确性远不如Faster R-CNN。SSD沿用了YOLO v1的基本思路，糅合了Faster R-CNN的anchor-box，又开创性的提出了多分辨率预测，最终达到了极快又准，以下表。cdn

SSD单一scale的检测原理

这里先直接给出具体的模型计算方法，后面再解释原理，不然原理解释起来很是晦涩难懂。blog

1）模型

a) 输入图片通过特征提取器（SSD采用VGG16作特征提取器），获得H x W x Channel的Extracted Feature Map。图片

b) 将上述Extracted Feature Map，通过3 x 3 x (25 x num_default_box)的卷积核，卷积成H x W x (25 x num_default_box)的feature map做为物体检测的predict。以下图（图中num_default_box=4）：ci

上述两步，就已经完成了物体检测的predict。足够简单it

2）原理解释

由卷积的特性可知，从输入图片到HxW分辨率的预测，至关于将原分辨率的输入图片进行HxW等分，以下图（这里h=2，w=2）：io

为了更准确的预测物体bounding box，SSD借鉴了faster rcnn中的default box思想。ast

先假设，每个cell中已经存在多个default box，default box的长宽固定，位于每个cell正中。

如下图为例，每个cell中有四个固定大小的default box。

那么在predict时，每个cell就会有4个预测，每个预测对应一个default box。以下图：

具体到一个default box的预测，分为两个部分，如上图中的default box 1，

P_i（i=background, c1, …, c20），表明的是这个default box的物体类别。P_background表明是背景的几率，P_ci表明是类别ci的几率（这里采用的VOC数据集，共有20个物体类别），全部几率值之和为1，取几率值最大的类做为default box的类别预测值。
Δcx, Δcy, Δw, Δh表明default box内的物体目标框与default box的位置之间的误差。Δcx, Δcy表明中心点的误差，Δw, Δh表明宽高的误差。具体的含义能够参考Loss计算章节。

因此一个default box会有25个预测结果，4个default box就有100个。这就是上文模型部分predict中的100的意义。

3）Loss计算

根据上述分析可知，每一个cell都有4个default box，HxW的分辨率，则会有4HW个预测结果。对于监督学习，须要知道每一个default box对应的标签Ground Truth。SSD对于真实GT物体框的分配策略是，首先将GT分配给IoU最大的default box，而后将GT分配给IoU大于0.5的default box，也即同一个GT会分配给不一样的default box，不一样的default box对应的GT多是同一个。