1. 深度学习跟SLAM的结合点
深度学习和slam的结合是近几年比较热的一个研究方向,具体的研究方向,我简单分为三块,以下。html
1.1 深度学习结合SLAM的三个方向
用深度学习方法替换传统SLAM中的一个/几个模块
- 特征提取,特征匹配,提升特征点稳定性,提取点线面等不一样层级的特征点。
- 深度估计
- 位姿估计
- 重定位
- 其余
在传统SLAM之上加入语义信息
端到端的SLAM
其实端到端就不能算是SLAM问题了吧,SLAM是同步定位与地图构建,端到端是输入image输出action,没有定位和建图。
- 机器人自主导航(深度强化学习)等react
1.2 相关的部分论文整理
1.2.1 用深度学习方法替换传统SLAM中的一个/几个模块。
替换多个模块
特征相关(特征提取匹配等)
注:Middlebury Stereo Datasets
数据集下载连接git


左边是SIFT,右边是LIFT
源代码 https://github.com/cvlab-epfl/LIFTgithub
位姿估计,深度估计

- Xu J, Ranftl, René, Koltun V. Accurate Optical Flow via Direct Cost Volume Processing[J]. 2017.
光流法不太关注,这个名字也是翻译不出来…………
英文摘要:
We present an optical flow estimation approach that operates on the full four-dimensional cost volume. This direct
approach shares the structural benefits of leading stereo matching pipelines, which are known to yield high accuracy. To this day, such approaches have been considered impractical due to the size of the cost volume. We show that the full four-dimensional cost volume can be constructed in a fraction of a second due to its regularity. We then exploit this regularity further by adapting semi-global matching to the four-dimensional setting. This yields a pipeline that achieves significantly higher accuracy than state-of-the-art optical flow methods while being faster than most. Our approach outperforms all published general-purpose optical flow methods on both Sintel and KITTI 2015 benchmarks.

- Liao Y, Huang L, Wang Y, et al. Parse Geometry from a Line: Monocular Depth Estimation with Partial Laser Observation[J]. 2017.
一条线上的解析几何:使用部分激光观测的单目深度估计
(输入:单目图像和2D激光距离数据 NYUDv2数据集 KITTI数据集)
激光的也不太关注。
Abstract— Many standard robotic platforms are equipped with at least a fixed 2D laser range finder and a monocular camera. Although those platforms do not have sensors for 3D depth sensing capability, knowledge of depth is an essential part in many robotics activities. Therefore, recently, there is an increasing interest in depth estimation using monocular images. As this task is inherently ambiguous, the data-driven estimated depth might be unreliable in robotics applications. In this paper, we have attempted to improve the precision of monocular
depth estimation by introducing 2D planar observation from the remaining laser range finder without extra cost. Specifically, we construct a dense reference map from the sparse laser range data, redefining the depth estimation task as estimating the distance between the real and the reference depth. To solve the problem, we construct a novel residual of residual neural network, and tightly combine the classification and regression losses for continuous depth estimation. Experimental results suggest that our method achieves considerable promotion compared to the state-of-the-art methods on both NYUD2 and KITTI, validating the effectiveness of our method on leveraging the additional sensory information. We further demonstrate the potential usage of our method in obstacle avoidance where our methodology provides comprehensive depth information compared to the solution using monocular camera or 2D laser range finder alone。

重定位
可能重定位用深度学习比较难作吧,毕竟是个偏几何的问题,暂时不太关注
- Wu J, Ma L, Hu X. Delving deeper into convolutional neural networks for camera relocalization[C]// IEEE International Conference on Robotics and Automation. IEEE, 2017.
- Alex Kendall, Matthew Grimes, Roberto Cipolla. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization[J]. 2015, 31:2938-2946.
PoseNet:用于实时六自由度相机重定位的卷积神经网络。
PoseNet是2015年的研究成果,算是SLAM跟深度学习结合的比较有开创性的成果。

源代码 https://github.com/alexgkendall/caffe-posenet算法
另有一篇颇有意思的论文
- Vo N, Jacobs N, Hays J. Revisiting IM2GPS in the Deep Learning Era[J]. 2017.
深度学习时代图像-GPS的重定位
思路颇有意思,使用一张照片在全世界范围内进行定位。
网络
1.2.2 在传统SLAM之上加入语义信息
图像语义分割&语义地图构建
-
Li X, Belaroussi R. Semi-Dense 3D Semantic Mapping from Monocular SLAM[J]. arXiv preprint arXiv:1611.04144, 2016.
单目SLAM的半稠密语义建图
(LSD-SLAM,室内外场景)
摘要:
将计算机视觉中的几何与图像相结合,已经被证实是机器人在各类各样的应用中的一种颇有发展前景的解决方案。stereo相机和RGBD传感器被普遍用于实现快速三维重建和密集轨迹跟踪。然而,它们缺少不一样规模环境无缝切换的灵活性,好比说,室内和室外场景。此外, 在三维建图中,语义信息仍然很难获取。咱们经过结合state-of-art的深度学习方法和半稠密的基于单目相机视频流的SLAM,应对此种挑战。在咱们的方法中,二维的语义信息,结合了有空间一致性的相连关键帧之间的correspondence对应关系以后,再进行三维建图。在这里并不须要对一个序列里的每个关键帧进行语义分割,因此计算时间相对合理。咱们在室内室外数据集上评测了咱们的方法,在经过baseline single frame prediction基准单帧预测实现二维语义标注方面取得了效果的提高。
架构
基本框架图以下:
输入RGB图像->选择关键帧并refine->2D语义分割->3D重建,语义优化
app
- Sünderhauf N, Pham T T, Latif Y, et al. Meaningful Maps With Object-Oriented Semantic Mapping[J]. 2017.
这个题目怎么翻译是好?面向对象语义建图的有意义地图
(输入:RGB-D图像 SSD ORB-SLAM2)
摘要:
智能机器人必须理解它们周围场景的几何和语义两方面的特性,才能跟环境进行有意义地交互。到目前为止,大多数研究已经分别解决了这两个建图问题,侧重于几何信息建图或者是语义信息建图。在本文中咱们解决了,既包含有语义意义和对象级别的实体,也包含基于点或网格的几何表示的环境地图构建的问题。咱们同时也对已知对象类别中看不到的实例创建了几何点云模型,并创建了以这些对象模型为中心实体的地图。咱们的系统利用了稀疏的基于特征的RGB-D SLAM,基于图像的深度学习目标检测方法和三维无监督的分割方法。
基本框架图以下:
输入RGB-D图像 -> ORB-SLAM2应用于每一帧,SSD(Single Shot MultiBox Detector)用于每个关键帧进行目标检测,3D无监督分割方法对于每个检测结果生成一个3D点云分割 -> 使用相似ICP的匹配值方法进行数据关联,以决定是否在地图中建立新的对象或者跟已有对象创建检测上的关联 -> 地图对象的3D模型(3D点云分割,指向ORB-SLAM2中位姿图的指针,对每一个类别的累计置信度)

- Ma L, Stückler J, Kerl C, et al. Multi-View Deep Learning for Consistent Semantic Mapping with RGB-D Cameras[J]. 2017.
基于RGB-D相机和多视角深度学习的一致语义建图
(NYUDv2数据集 )
摘要:
视觉场景理解是使机器人可以在环境中进行有目的的行动的一项重要的能力。本文中,咱们提出了一种新型的深度神经网络方法以在RGB-D图像序列中进行语义分割。主要的创新点在于用一种自监督的方式训练咱们的网络用于预测多视角一致的语义信息。在测试时,此网络的基于语义关键帧地图的语义预测,相比单视角图片训练出来的网络上的语义预测,融合的一致性更高。咱们的网络架构基于最新的用于RGB和深度图像融合的单视角深度学习方法来进行语义风格,而且经过多尺度偏差最小化优化了这一方法的效果。咱们使用RGB-D SLAM获得相机轨迹,而且将RGB-D图像的预测扭曲成ground-truth的标注过的帧,以在训练期间提升多视角的一致性。(不是很理解)(We obtain the camera trajectory using RGB-D SLAM and warp the predictions of RGB-D images into ground-truth annotated frames in order to enforce multi-view consistency during training.)在测试时,多视角的预测被融合到关键帧当中去。咱们提出并分析了在训练和测试过程当中提升多视角一致性的方法。咱们评价了多视角一致性训练的优势,并指出,深度特征的池化和多视角的融合,可以提高基于NYUDv2数据集评价指标的语义分割的性能。咱们端到端方式训练的网络,在单视角分割和多视角语义融合方面,都取得了在NYUDv2数据集下,state-of-art的效果。
注:NYUDv2数据集 数据集下载连接
用于室内场景语义分割的RGB-D图像数据集,来自Kinect,1449对已标注的RGB-Depth图像,40万张未标注图像。
框架
另,有一篇我很感兴趣的论文,不过跟SLAM没有结合,亮点在于街景的语义分割
Pohlen T, Hermans A, Mathias M, et al. Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes[J]. 2016.
用于街景语义分割的全分辨率残差网络
做者开放了源代码~~https://github.com/TobyPDE/FRRNdom
1.2.3 端到端SLAM
1.3 研究现状总结
用深度学习方法替换传统slam中的一个/几个模块:
目前还不能达到超越传统方法的效果,相较传统SLAM并无很明显的优点(标注的数据集少且不全,使用视频作训练数据的很是少。SLAM中不少问题都是数学问题,深度学习并不擅长等等缘由)。
在传统SLAM之上加入语义信息
语义SLAM算是在扩展了传统SLAM问题的研究内容,如今出现了一些将语义信息集成到SLAM的研究,好比说用SLAM系统中获得的图像之间的几何一致性促进图像语义分割,也能够用语义分割/建图的结果促进SLAM的定位/闭环等,前者已经有了一些研究,不过仍是集中于室内场景,后者貌似尚未什么相关研究。若是SLAM和语义分割可以相互促进相辅相成,应该能达到好的效果。
另:使用SLAM帮助构建大规模的图像之间有对应关系的数据集,能够下降深度学习数据集的标注难度吧,应该也是一个SLAM助力深度学习的思路。