投稿做者:极链AI研究院顾寅铮
今年4月,在北京举行的智源学者计划启动暨联合实验室发布会上,北京旷视科技有限公司与北京智源人工智能研究院共同发布了全球最大的目标检测数据集 – Objects365。html
该数据集总共包含63万张图像,覆盖365个类别,高达1000万框数,具备规模大、质量高、泛化能力强的特色,远超Pascal VOC、COCO等传统数据集。关于Objects365的论文 [1] 近日在两年一度的计算机视觉顶会ICCV 2019中发表,同时在不久前结束的谷歌目标检测赛Open Images Challenge 2019 – Object Detection Track [2] 中排名前三的队伍都使用了Objects365做为额外数据集并取得mMAP平均提高2至3个百分点。web
1. 规模算法
数据集包括人、衣物、居室、浴室、厨房、办公、电器、交通、食物、水果、蔬菜、动物、运动、乐器14个大类,平均每一类有大约26个小类。api
Objects365与其余数据集的比较google
如图1所示,比起COCO数据集 [3],Objects365具备5倍的图像数量、4倍的类别数量、以及10倍以上标注框数量。在数量上,惟一规模超过Objects365的OpenImages数据集 [4] 具备标注精度不高及覆盖不全等明显缺点 (partially annotated),这对模型训练会带来严重影响。比起OpenImages,Objects365具备每张图中全部物体都被标注的优点,这在Boxes/img这列 (15.8 vs. 9.8) 获得体现:在类别数少 (365 vs. 500) 的状况下达到平均每张图包含1.6倍的标注框。人工智能
2. 质量spa
图2:htm
如图2所示,即使只考虑Objects365在COCO和VOC数据集中的80类和20类,在每张图像平均框数和类别数这两项指标上,Objects365依然优于COCO和VOC。标注过程当中减小了漏标,平均标注区域占比也超过COCO和VOC。rem
物都有精准的标注框。it
3. 泛化能力
比起上述两项,鉴定一个数据集质量很重要的一项指标即是其泛化能力。
预训练数据集与ImageNet的比较
如图3所示,比起传统预训练数据集ImageNet [5],使用Objects365预训练可达到在训练时间缩短至六分之一 (90K次迭代 vs. 540K次迭代) 的状况下mMAP提高2.7个百分点(检测模型使用ResNet50+FPN做为Backbone的Faster RCNN)。
另外,在其余计算机视觉任务,如行人检测、语义/场景分割等,中使用Objects365做为预训练数据集均可达到速度与精度的明显提高,详情可参照论文 [1]。
4. 结语
随着近年来计算机视觉技术的飞速发展,算法对数据的要求也愈来愈高。不管是目标检测或语义分割等传统任务,又或是目标关系等新推出或还未推出的新任务,现有的数据集显然不能知足需求。相对于算法,优质数据集每每能对模型效果带来更大的提高,不管是数据规模又或是标注质量,Objects365都为计算机视觉技术树立了新的里程碑。
参考文献:
[1] Shao et al., Objects365: A Large-scale, High-quality Dataset for Object Detection, ICCV 2019.
[2] storage.googleapis.com/openimages/web/challenge2019.html
[3] Lin et al., Microsoft COCO: Common objects in context, ECCV 2014.
[5] Deng et al., ImageNet: A Large-scale Hierarchical Image Database, CVPR 2009.