尽管在交通标志识别和分类领域已经取得了不错的成绩,可是不多有在real world images中同步处理两个tasks的研究。论文有两个特色。一是建立了一个100000张全景的Benchmark,有30000张包含了交通标志。这些图片覆盖了不一样光线和天气情况。每一个交通标志都被标注了一个label,边框和pixel mask.这个Benchmark是Tsinghua-Tencent 100k。二是论文阐述了一个能够识别和分类交通标志的端到端的CNN。大部分以前的针对物体的CNN图片处理方案在对像交通标志这种小物体的检测上表现并很差。实验结果显示了论文提出网络的鲁棒性和优越性。Benchamrk,源码和CNN模型都已经开源。算法
Pascal voc和ImageNet是两个经常使用的Benchmark。在这些数据集中,目标识别都是针对较大的物体(边框占整个图片的20%左右)。然而,在一张2000X2000的图片中,一个交通标志只有80X80。所以,须要设计一个针对有意义的小物体的检测方案。
交通标志经过功能能够被分类多个类别。在每一个类别中,能够被进一步分为不少有类似形状但细节不一样的子类。这要求交通标志的识别须要两个步骤:识别后分类。识别就是将图片中的交通标志框出来,分类是对框出来的交通标志分类。
目前方法在识别和分类中都达到了接近完美的结果。可是德国提出的这个benchmark在世界世界中并不适用。在GTSDB识别任务中,算法须要识别出四个主类中的一类。在GTSDB分类benchmark中,大部分图片中都有交通标志,而算法只需决定标志属于哪一个子类,并且没有错误状况的干扰。在现实世界中,识别交通标志主要问题是物体很小,一般小于图片大小的1%。所以,算法必须过滤掉许多干扰状况,保留真实的交通标志,所以,咱们建立了一个新的实际的Benchmark,并用这个数据评估用于识别和分类交通标志的combined CNN approch。
本文的贡献主要有:网络
建立了一个新的、更加实际的交通标志Benchmarkapp
咱们训练了两个CNN用于识别交通标志,而且同步识别和分类交通标志。结果显示了两个网络的鲁棒性测试
原始数据是由6个单目摄像机拍下来的,而后对图像进行处理。benchmark包括中国的5个城市,包括市中心和郊区。全图分辨率是2048X2048。一共100000张,30000张中包括交通标志。其中,交通标志多为小图。标注是人工标注。形状为多边形和椭圆形。spa
咱们训练了两个网络。一个用于识别,一个同步识别和分类。这两个网络共享大部分结构除了最后一步的分支。设计
该模型是对overfeat模型的改进,在第6层之后添加了分支。论文介绍了这样改进的缘由。通过实验发现这样会网络收敛的更快。更深的网络表现更好,可是会消耗更多GPU和训练时间。所以在速度和准确率上寻取平衡。另外一个改动使在最后的分支上添加了生成类别向量的分支。3d
因为不一样类别的数据量不一样,在训练时使用了数据增大技术(data augmentation technique)。咱们简单的忽略了实例小于100的类别。剩下45个类别能够用于分类。实例在100和1000之间的类别在训练中都增大到1000个。其他大于1000的不变。
为了增大这些数据,咱们为每一个类别使用标准模板,随机旋转(-20°,20°),在(20,200)的范围内随机比例化大小,同时添加合理随机的变形。而后挑选出没有交通标志的图片,混入模板,添加随机噪声。blog
对于10000张包含交通标志的图片,按2:1用于训练和测试。其他90000张均用于测试。按照coco的标准,根据大小将交通标志分为3类:小物体(area<32²),中(32²<area<96²),大(area>96²)。这个评估标准能够测出识别器对不一样大小物体的识别效果。图片
识别交通标志:84% accuracy , 94% recallip
从图中能够看出,Fast R-CNN has a recall 0.56 and accuracy 0.50 而咱们的方法 has a recall 0.91 and accuracy 0.88.
咱们建立了一个新的交通标志的benchmark。与以前的交通标志benchmark相比,该数据集中的图片更多变,且标志大多很是小。数据集包含了更多的图片,且图片有更高的分辨率。并且,提供了像素级的分割。咱们在该数据集上训练了两个网络,一个是交通标志识别器。另外一个能够同时识别和分类。In the future,咱们计划寻找更多在该数据集中少有出现的交通标志。咱们还计划加速process以在移动设备上可以实时运行。