更多相关博客请猛戳: AutoVision
如需转载,请附上本文连接,谢谢!
以前在看MMF(Uber'19)[1]的时候发现主要是基于这篇ContFuse[2]作的,因此回过头来再总结一下这个工做,毕竟这是第一篇将image feature跟LiDAR BEV feature进行融合的文章。对MMF感兴趣的能够移步个人另外一篇博客:架构
仙道菜:Multi-Task Multi-Sensor Object Detection(Uber’19) zhuanlan.zhihu.com
Abstract
这篇文章就是探索如何使用LiDAR跟camera达到一个很是好的3D检测器,可以获得准确的物体位置信息。为了达到这个目的,做者设计了一个end-to-end的学习框架,利用continuous convolution对LiDAR与camera进行不一样感觉野上的特征融合。该论文设计的continuous fusion layer可以对离散状态的图像特征进行encode,同时也可以对连续的几何信息进行encode。app
目前有不少在BEV上的工做,都展现了很好的3D检测能力,例如:MV3D[3]、Voxelnet[4]等。不少方法LiDAR-Image融合的方式都是将LiDAR投影到Image坐标系再进行融合,而这篇是第一个提出将BEV与Image直接融合的工做。框架


上图是这篇文章的主要架构,这个图仍是很是直观的。能够看出主要分为3个部分:函数
- Camera stream:用于提取image在不一样感觉野下的feature map;
- LiDAR stream:用于提取不一样LiDAr在不一样感觉野下的feature map;
- Continuous fusion layer:用于image-LiDAR多尺度的特征融合;
特征提取这边没有什么特殊的,本文主要介绍一下Continuous fusion layer。学习
Continuous fusion layer
要介绍ContFuse layer,就要先PCCN(Parametric Continuous Convolutional Network)[5].flex
PCCN url
Grid Convspa
标准的CNN使用的是离散的卷积做为基本操做:设计
Continuous Conv3d
连续卷积顾名思义它的操做是在连续空间的,因此上式变成了:
可是其实实际中咱们也很难获取连续的信号,通常也只能观察到y曲线上的数个采样点 。所以,上式能够进行如何近似:
考虑到实际应用的复杂性,核函数也多是极其复杂的。为了便于学习和训练,依据万能近似定理(Universal approximation theorem),能够把核函数近似看做是多层感知机MLP的输出。所以上式还能够能够写成:
利用上式,咱们能够根据点i周围的点计算出其对应的特征,从而达到“插值”的效果。以下图,处的特征值能够经过其邻域点
计算获得。


Continuous Fusion
了解PCCN的机制以后,ContFuse也就不在神秘了,下面的关键点在于如何找到LiDAR BEV上的点与Image pixel的对应关系。


具体的步骤以下:
- 对于BEV上的每个pixel,利用KNN找出跟它最接近的K个LiDAR points (Step 1, Step 2);
- 把3D points投影到image 坐标系下 (Step 3);
- 找到BEV pixel对应的image feature 以及 3d offset 与BEV特征进行融合 (Step 4);
其中3d offset指的是target pixel和点云中邻域点之间的相对位置关系,能够衡量不一样的点对target pixel的贡献程度。
Experiment
最终总体的效果相较于MV3D、AVOD有较大的提高:


关于KNN中的k,做者也作了相应的ablation study:


Conclusion
这篇文章从另外一个视角(BEV+image)将LiDAR与Image进行融合,很是有启发性。这篇只作了pixel-wise的fusion,后续的MMF在此基础上又进一步加了ROI-wise的fusion,也进一步提高了精度。
参考
- ^Liang, Ming, et al. "Multi-task multi-sensor fusion for 3d object detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
- ^Liang, Ming, et al. "Deep continuous fusion for multi-sensor 3d object detection." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
- ^Multi-view 3d object detection network for autonomous driving. In: CVPR (2017)
- ^Zhou, Y., Tuzel, O.: Voxelnet: End-to-end learning for point cloud based 3d object detection. CVPR (2018)
- ^Wang, S., Suo, S., Ma, W.C., Urtasun, R.: Deep parameteric convolutional neural networks. In: CVPR (2018)