论文:DSSD : Deconvolutional Single Shot Detector
来源:CVPR 2017
DSSD是对SSD的改进,虽然SSD直接在多尺度特征上进行预测的做法提升了目标检测的准确度,但仍在存在一些缺点:
既然SSD骨干网络VGG16的特征提取能力不够强,就将其换成ResNet-101,但是,骨干网络换成ResNet-101后,在不同数据集下的测试结果却不一样。
(1)VOC 2007测试集
在VOC 2007测试集中,目标检测准确度有所下降,但增大输入图像尺寸再比较时,SSD321+ResNet-101的效果更好。
SSD300+VGG16: m A P = 0.775 mAP=0.775 mAP=0.775;
SSD321+ResNet-101: m A P = 0.764 mAP=0.764 mAP=0.764。
SSD512+VGG16: m A P = 0.795 mAP=0.795 mAP=0.795;
SSD513+ResNet-101: m A P = 0.806 mAP=0.806 mAP=0.806。
作者在论文中并未对这一现象进行解释。个人理解是,每个网络的性能与输入图像分辨率的关系是不同的,即,随着输入图像分辨率的增大,网络性能的提升速度是不同的。由于VGG16的感受野较小,ResNet-101的感受野较大,分辨率为300的输入图像可能更适合感受野较小的VGG16,而分辨率为300的输入图像可能更适合感受野较大的ResNet-101,但这也会因数据集不同而不同。
(2)COCO测试集
不管是SSD300+VGG16还是SSD321+ResNet-101,其小目标检测效果都比较差,于是这篇论文着重于改善小目标的检测性能。
DSSD的网络结构其实与TDM、FPN是相似的,都是由3部分组成:
不同的是上采样方法和特征叠加方法:
concat
进行特征叠加(沿通道方向叠加);element-wise sum
进行特征叠加(逐元素相加);element-wise product
进行特征叠加(逐元素相乘)。DSSD中验证了两种特征叠加方法:element-wise sum和element-wise product,发现element-wise product稍好一些。