SLAM、三维重建,语义相关数据集大全

做者朱尊杰,公众号:计算机视觉life,编辑成员php

一 主要针对自动驾驶:

1.KITTI数据集:

http://www.cvlibs.net/datasets/kitti/index.php(RGB+Lidar+GPS+IMU)

  • KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像 (stereo),光流 (optical flow),视觉里程计(visual odometry),3D物体检测 (object detection) 和 3D跟踪 (tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各类程度的遮挡与截断。
  • Andreas Geiger and Philip Lenz and Raquel Urtasun, Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite, CVPR’12, cited by 3000+
  • 该数据集论文共8页,主要由三部分组成:Introduction、Challenges and Methodolgy、Evaluation:
    • Introduction:列一下相关的开源数据集;说明本身作这个数据集的缘由(现有数据集都过度简单,严格限制路况从而没有包含现实路上的实际状况等);介绍本身数据集的采集方式、包含的内容等;
    • Challenges and Methodolgy:主要写了数据采集会遇到的问题以及要作的全部事情。如,传感 setup;标定方式;groundtruth怎么获取;如何选取好的数据做为benchmark;评价标准。
    • Experimental Evaluation:将state-of-the-art的系统在本身的数据集上跑结果&对比&分析。

2.Oxford数据集 :

http://robotcar-dataset.robots.ox.ac.uk/datasets/(RGB+Lidar+GPS+IMU)

  • 自动驾驶数据集。对牛津的一部分连续的道路进行了上百次数据采集,收集到了多种天气行人和交通状况下的数据,也有建筑和道路施工时的数据,总的数据长度达1000小时以上。
  • W. Maddern, G. Pascoe, C. Linegar and P. Newman, “1 Year, 1000km: The Oxford RobotCar Dataset” The International Journal of Robotics Research (IJRR), 2016. cited by 200+

3.其他自动驾驶相关数据集有:

  • Cityscape, Comma.ai, BDDV, TORCS, Udacity, GTA, CARLA, Carcraft

二 包含Depth的SLAM与三维重建数据集:

1.ASL Kinect数据集

[http://projects.asl.ethz.ch/datasets/doku.php](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)

​ 由Kinect采集的包含三种不一样难度的27个序列,GT得自Vicon,采集场景以下:html

  • F. Pomerleau, S. Magnenat, F. Colas, M. Liu, R. Siegwart, “Tracking a Depth Camera: Parameter Exploration for Fast ICP”, IROS 2011, cited 91
  • 论文主要内容:开源了一个基于ROS的模块化的ICP库,能够快速的测试不一样变种ICP的参数和性能; 而后开源本身采集的这个数据集,并在该数据集的基础上作实验,考虑了depth的噪声,采集频率,FOV等因素对ICP的影响。

2.ASL RGB-D 数据集

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets#downloads

  • 就一个序列,可是其论文主要是提出一个系统,不是将开源数据集做为贡献。数据集:RGB-D,轨迹的GT来自Vicon,并用Lidar获得场景结构的GT(点云)git

  • Helen Oleynikova, Zachary Taylor, Marius Fehr, Juan Nieto, and Roland Siegwart, “Voxblox: Building 3D Signed Distance Fields for Planning”, IROS’17, cited 40github

  • 这篇论文主要作的问题是机器人路径规划须要的建图:是用 Euclidean Signed Distance Fields (ESDFs) 而非 Octomap(路径规划经常使用地图)来创建四轴飞行器优化路径须要的地图;他们的主要贡献是提出方法使得在飞行器上基于CPU能实时地完成从创建的TSDF图中提取ESDF并完成路径规划。web

3.TUM RGB-D:

http://vision.in.tum.de/data/datasets/rgbd-dataset/download

  • 数据集包含一些室内的序列,在不一样的纹理下,不一样的光照和不一样的结构条件,从Kinect传感器采集到的数据中分别去评估物体的重建和SLAM/视觉里程计的性能。可是这个数据集仍是没有完整的IMU。
  • J. Sturm and N. Engelhard and F. Endres and W. Burgard and D. Cremers,A Benchmark for the Evaluation of RGB-D SLAM Systems, IROS’12, cited 1200+

4.ICL-NUIM:

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/iclnuim.html

  • 虚拟数据集,可是没有IMU。该集旨在对RGB-D、视觉测距和SLAM算法进行基准测试。两个不一样的场景(起居室和办公室场景)提供了基本事实。客厅具备3D表面地面实况以及深度图和相机姿式,用于标记相机轨迹并且还用于重建。办公室场景仅带有轨迹数据,而且没有任何明确的3D模型。
  • A. Handa and T. Whelan and J.B. McDonald and A.J. Davison, A Benchmark for {RGB-D} Visual Odometry, {3D} Reconstruction and {SLAM} ,ICRA‘14,cited 340

5.VaFRIC:

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/index.html

  • 虚拟数据集,没有IMU。ICL-NUIM的同一个团队,这个数据集只有一个目的,测试不一样曝光时间对相机跟踪的影响,个人想法的萌芽。网站有提供一些作虚拟数据集的方法面试

  • A. Handa and R. A. Newcombe and A. Angeli and A. J. Davison, Real-Time Camera Tracking: When Is High Frame-Rate Best? , ECCV’12 , cited 100+算法

三 不含Depth的SLAM数据集:

1.ASL EuRoC:

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets

  • 双目RGB+IMU,GT来自于Vicon和Lidar,EuRoC。数据集包含11个双目序列,这些序列是由微型飞行器在两个不一样的房间和一个大型工业环境中飞行时记录下来的。提供两种类型的数据集: 第一个包含来自Leica多站的三维位置地面真值,并着重于视觉惯性的评估SLAM算法在一个真实的工业场景。
  • M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, M. Achtelik and R. Siegwart, The EuRoC micro aerial vehicle datasets, (IJRR’16 ) cited 258
  • IJRR是机器人顶刊,SCI一区,该论文应该是约稿。论文分三部分:1. 传感器的组装以及坐标的设定;2. 所采集数据集的细节描述以及如何使用;3. 如何标定传感器以及GT。

2.TUM VI banchmark:

http://vision.in.tum.de/data/datasets/visual-inertial-dataset (fisheye+IMU)

  • Schubert, D.Goll, T.Demmel, N.Usenko, V. Stuckler, J.& Cremers, D. (2018). The TUM VI Benchmark for Evaluating Visual-Inertial Odometry. IROS’18
  • 开源作的很是好,给的信息很是详细,但公开的比较晚,有上一个工做在了,因此这个工做的引用还上不去。

3.TUM monoVO:

http://vision.in.tum.de/data/datasets/mono-dataset (fisheye-only)

  • A Photometrically Calibrated Benchmark For Monocular Visual Odometry (J. Engel, V. Usenko and D. Cremers), arXiv16
  • 论文没有正式发表,主要写了光度标定校准等的方法以及与一些开源数据集的比对。该数据集不多人用,主要是给他们本身的DVO用。

4.TUM LSD :

  • Large-Scale Direct SLAM for Omnidirectional Cameras (D. Caruso, J. Engel and D. Cremers), In International Conference on Intelligent Robots and Systems (IROS), 2015. cited 100+

四 包含语义的数据集:

1.NYU:

http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

  • kinect采集的主要针对语义分割的数据集。RGB-D序列+手标label
  • Nathan Silberman, Pushmeet Kohli, Derek Hoiem, Rob Fergus, Indoor Segmentation and Support Inference from RGBD Images,ECCV’12

2.Matterport 3D:

http://niessner.github.io/Matterport/

  • 用18对RGB-D图像生成全景图, 主要作语义分割,有90个场景
  • Chang, Angel and Dai, Angela and Funkhouser, Thomas and Halber, Maciej and Niessner, Matthias and Savva, Manolis and Song, Shuran and Zeng, Andy and Zhang, Yinda, Matterport3D: Learning from RGB-D Data in Indoor Environments, 3DV’17

3.ScanNet:

http://www.scan-net.org/#code-and-data

  • 做者Angela Dai在BundleFusion后的下一个工做。是真实世界数据集,主要针对语义分割。数据集的生成方式是经过利用BundleFusion将不一样用户基于structure io采集的RGB-D序列重建成场景三维模型,在模型的基础上打语义标签,而后再将语义信息重投影回每张图片上生成图像的语义GT。
  • Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Niener, Matthias, ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes,CVPR’17

4.InteriorNet:

http://interiornet.org/

  • 目前发现的惟一一个同时包含RGB-D-IMU的(虚拟)数据集。有很是多的场景,作的也很是专业,提供了语义标签,fisheye,模拟了快速相机运动以及图像模糊。遗憾的是数据集尚未开放下载。编程

  • Wenbin Li and Sajad Saeedi and John McCormac and Ronald Clark and Dimos Tzoumanikas and Qing Ye and Yuzhong Huang and Rui Tang and Stefan Leutenegger, InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset, British Machine Vision Conference (BMVC) 2018dom

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

  • 提供大尺度场景的三维以及语义信息,是由采集的全景图生成,数据集主要是拿来作Building Parsing的。

Gibson+Environmentide

  • 提供大量真实场景的三维模型,包含纹理、几何以及语义,以此来模拟训练移动机器人的感知能力(AI系统)

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

  • 提供大尺度场景的三维以及语义信息,是由采集的全景图生成,数据集主要是拿来作Building Parsing的。

Gibson+Environment

  • 提供大量真实场景的三维模型,包含纹理、几何以及语义,以此来模拟训练移动机器人的感知能力(AI系统)

6.SUNCG:

http://sscnet.cs.princeton.edu/

  • 用虚拟场景渲染单个视角的彩色深度和语义,主要拿来作基于单帧图像的语义场景修复。

  • Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser,Semantic Scene Completion from a Single Depth Image,CVPR 2017

6.SUNCG:

http://sscnet.cs.princeton.edu/

  • 用虚拟场景渲染单个视角的彩色深度和语义,主要拿来作基于单帧图像的语义场景修复。

  • Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser,Semantic Scene Completion from a Single Depth Image,CVPR 2017

推荐阅读

如何从零开始系统化学习视觉SLAM?
从零开始一块儿学习SLAM | 为何要学SLAM?
从零开始一块儿学习SLAM | 学习SLAM到底须要学什么?
从零开始一块儿学习SLAM | SLAM有什么用?
从零开始一块儿学习SLAM | C++新特性要不要学?
从零开始一块儿学习SLAM | 为何要用齐次坐标?
从零开始一块儿学习SLAM | 三维空间刚体的旋转
从零开始一块儿学习SLAM | 为啥须要李群与李代数?
从零开始一块儿学习SLAM | 相机成像模型
从零开始一块儿学习SLAM | 不推公式,如何真正理解对极约束?
从零开始一块儿学习SLAM | 神奇的单应矩阵
从零开始一块儿学习SLAM | 你好,点云
从零开始一块儿学习SLAM | 给点云加个滤网
从零开始一块儿学习SLAM | 点云平滑法线估计
从零开始一块儿学习SLAM | 点云到网格的进化
从零开始一块儿学习SLAM | 理解图优化,一步步带你看懂g2o代码
从零开始一块儿学习SLAM | 掌握g2o顶点编程套路
从零开始一块儿学习SLAM | 掌握g2o边的代码套路
零基础小白,如何入门计算机视觉?
SLAM领域牛人、牛实验室、牛研究成果梳理
我用MATLAB撸了一个2D LiDAR SLAM
可视化理解四元数,愿你再也不掉头发
最近一年语义SLAM有哪些表明性工做?
视觉SLAM技术综述
汇总 | VIO、激光SLAM相关论文分类集锦
研究SLAM,对编程的要求有多高?
2018年SLAM、三维视觉方向求职经验分享
2018年SLAM、三维视觉方向求职经验分享
深度学习遇到SLAM | 如何评价基于深度学习的DeepVO,VINet,VidLoc?
视觉SLAM关键方法总结
SLAM方向公众号、知乎、博客上有哪些大V能够关注?
SLAM实验室
SLAM方向国内有哪些优秀公司?
SLAM面试常见问题