《Receptive Field Block Net for Accurate and Fast Object Detection》论文笔记

论文连接:arxiv.org/abs/1711.07…git

论文代码:github.com/ruinmessi/R…github

这篇文章是CV领域顶会ECCV2018中关于目标检测的文章,文中以SSD模型为基础提出了RFB结构,强调兼顾速度与性能。说来也巧,由于项目须要,在看这篇论文以前正好看过提出dilated convolution的那篇文章,可是dilated convolution的结构得到更大感觉野的方式确实对细粒度的分割会比较好,适用图像分割领域。当我还在想能怎么用在目标检测上时,就看到了RFB网络。虽然做者说是为了兼顾速度与性能将其应用到one stage的SSD上,但我也在two stage的faster rcnn上,复现出了较好的效果。这是一篇我我的很喜欢的文章,实验充分,模拟视觉细胞的结构让我以为即简单又巧妙。所以简单总结下这篇文章。算法

绪论

做者指出目前图像领域深度学习的发展愈来愈倾向于用更深的网络以达到更好的效果,然而像ResNet等很深的网络每每具备较大的计算量,致使速度受限。相比之下做者提出的RFB结构具备如下优势:网络

  1. 模拟了人类视觉系统RFs的大小和离心率设置,加强轻量级CNN网络的特征提取能力
  2. 简单的替换了SSD的最后一级卷积层,在较少的计算增长的状况下,提高了模型的性能
  3. 除了SSD以外,也扩展到了MobileNet中取得了较好的结果,展现告终构的泛化性

相关工做

这部分就不总结了,主要介绍了one stage和two stage的目标检测模型和目前论文中在感觉野上作的研究。框架

方法

视觉皮层

enter description here
如上图所示是人类感觉野(pRF)的示意图,能够看到有如下规律:

  • 距离中心越远的pRF越大,即pRF大小与偏爱含有正相关的关系
  • 不一样图谱的pRF大小规模不一样

感觉野块

enter description here

enter description here
做者提出的RFB结构的原理如上图所示,该结构的特色有:

  • 多分支卷积层:根据以前人类感觉野(pRF)的示意图,为了仿照不一样图谱的pRF大小规模不一样,做者提出用不一样大小的卷积核以实现多大小的pRF,这一方法应该优于共享固定大小的RFs。这一结构参考了Inception的结构。
  • 膨胀卷积和池化层:膨胀卷积的基本意图在于生成分辨率更高的特征图,在相同计算量的状况下得到更大的感觉野。而膨胀卷积核的大小和扩张与pRFs在视觉皮层的大小和偏爱具备类似的功能关系。而后再将不一样膨胀卷积处理过的层融合起来,以达到视觉皮层中感觉野的效果。rFB的结构以下图所示:

enter description here

RFB检测框架

做者提出的RFB的结构是在SSD的基础上改的,作的修改及替换以下图所示:性能

enter description here

  • 轻量级的结构:这里主要说的是SSD的有点,这里不赘述
  • 多尺度结构中的RFB:在原始的SSD中,有着层叠的卷积层,造成一系列空间分辨率连续降低、感觉野不断增大的feature map。在做者的实现中,保持了相同的SSD级联结构,但具备较大感觉也的卷积层被RFB结构替代。做者还指出最后基层卷积层的特征图过小,适合用5X5大小的卷积核。这部分论文里Fig.4的a图中用的确实是5x5的卷积核,可是给出的代码中却用两个3x3的卷积核替代了,这部分我有点疑惑。

实验

这一部分就是各类各样的实验图表了,也不赘述。从如下图表能够看到实验结果确实很惊艳,用了RFB结构的网络mAP会有不小的提高。学习

enter description here

enter description here

enter description here

enter description here

做者还给出了一张目前目标检测算法的准确率和耗时的图片,对比的可能是one stage的模型,能够做为参考ui

相关文章
相关标签/搜索