R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构

原文地址git

我对深度学习应用于物体检测的开山之做R-CNN的论文进行了主要部分的翻译工做,R-CNN经过引入CNN让物体检测的性能水平上升了一个档次,但该文的想法比较天然原始,估计做者在写做的过程当中已经意识到这个问题,因此文中也对将来的改进提出了些许的想法,将来我将继续翻译SPPNet、fast-RCNN、faster-RCNN、mask-RCNN等一系列物体定位和语义分割领域的重要论文,主要做者都是Ross Girshick和Kaiming He。github

用于精确物体定位和语义分割的丰富特征层次结构

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick      Jeff Donahue      Trevor Darrell     Jitendra Malik
UC Berkeley

 

摘要

过去几年,在权威的PASCAL VOC数据集上,物体定位的性能已经达到一个稳定水平。表现最好的方法都是融合了多个低层次图像特征和高层次的上下文环境的复杂系统。本文提出一种简单的可扩展的检测算法,能够将VOC2012上指望平均精度的最好结果明显提高30%以上——达到了53.3%。咱们的方法结合了两个关键因素:(1) 将大型卷积神经网络(CNNs)应用于自底向上区域推荐以定位和分割物体;(2)当标签训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定任务的调优,就能够产生明显的性能提高。因为咱们结合了区域推荐和CNNs,该方法被称为R-CNN:Regions with CNN features。咱们对比了R-CNN和OverFeat,Overfeat是最近被提出的一个机遇类CNN架构的滑动窗口检测器,发现R-CNN在ILSVRC2013检测数据集上面的表现明显优于OverFeat。整个系统的源码在:https://people.eecs.berkeley.edu/~rbg/rcnn(译者注:已失效,新地址:https://github.com/rbgirshick/rcnn)。
 
相关文章
相关标签/搜索