本篇博客主要以介绍MS COCO数据集为目标,分为3个部分:COCO介绍,数据集分类和COCO展现。mysql
本人主要下载了其2014年版本的数据,一共有20G左右的图片和500M左右的标签文件。标签文件标记了每一个segmentation的像素精确位置+bounding box的精确坐标,其精度均为小数点后两位。一个目标的标签示意以下:算法
{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109}, sql
下面来介绍一下这个数据集。数据库
COCO数据集是微软团队获取的一个能够用来图像recognition+segmentation+captioning 数据集,其官方说明网址:http://mscoco.org/。数据结构
该数据集主要有的特色以下:(1)Object segmentation(2)Recognition in Context(3)Multiple objects per image(4)More than 300,000 images(5)More than 2 Million instances(6)80 object categories(7)5 captions per image(8)Keypoints on 100,000 people机器学习
为了更好的介绍这个数据集,微软在ECCV Workshops里发表这篇文章:Microsoft COCO: Common Objects in Context。从这篇文章中,咱们了解了这个数据集以scene understanding为目标,主要从复杂的平常场景中截取,图像中的目标经过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。性能
该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精肯定位。数据集的对比示意图:学习
Image Classification:
spa
分类须要二进制的标签来肯定目标是否在图像中。早期数据集主要是位于空白背景下的单一目标,如MNIST手写数据库,COIL household objects。在机器学习领域的著名数据集有CIFAR-10 and CIFAR-100,在32*32影像上分别提供10和100类。最近最著名的分类数据集即ImageNet,22,000类,每类500-1000影像。.net
Object Detection:
经典的状况下经过bounding box肯定目标位置,期初主要用于人脸检测与行人检测,数据集如Caltech Pedestrian Dataset包含350,000个bounding box标签。PASCAL VOC数据包括20个目标超过11,000图像,超过27,000目标bounding box。最近还有ImageNet数据下获取的detection数据集,200类,400,000张图像,350,000个bounding box。因为一些目标之间有着强烈的关系而非独立存在,在特定场景下检测某种目标是是否有意义的,所以精确的位置信息比bounding box更加剧要。
Semantic scene labeling:
这类问题须要pixel级别的标签,其中个别目标很难定义,如街道和草地。数据集主要包括室内场景和室外场景的,一些数据集包括深度信息。其中,SUN dataset包括908个场景类,3,819个常规目标类(person, chair, car)和语义场景类(wall, sky, floor),每类的数目具备较大的差异(这点COCO数据进行改进,保证每一类数据足够)。
Other vision datasets:
一些数据集如Middlebury datasets,包含立体相对,多视角立体像对和光流;同时还有Berkeley Segmentation Data Set (BSDS500),能够评价segmentation和edge detection算法。
该数据集标记流程以下:
COCO数据集有91类,虽然比ImageNet和SUN类别少,可是每一类的图像多,这有利于得到更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。
COCO数据集分两部分发布,前部分于2014年发布,后部分于2015年,2014年版本:82,783 training, 40,504 validation, and 40,775 testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and 81,434 test images。
其性能对比和一些例子: