Deep Continuous Fusion (Uber'18) - 知乎

更多相关博客请猛戳： AutoVision
如需转载，请附上本文连接，谢谢!

以前在看MMF(Uber'19)^[1]的时候发现主要是基于这篇ContFuse^[2]作的，因此回过头来再总结一下这个工做，毕竟这是第一篇将image feature跟LiDAR BEV feature进行融合的文章。对MMF感兴趣的能够移步个人另外一篇博客：架构

仙道菜：Multi-Task Multi-Sensor Object Detection(Uber’19) zhuanlan.zhihu.com

Abstract

这篇文章就是探索如何使用LiDAR跟camera达到一个很是好的3D检测器，可以获得准确的物体位置信息。为了达到这个目的，做者设计了一个end-to-end的学习框架，利用continuous convolution对LiDAR与camera进行不一样感觉野上的特征融合。该论文设计的continuous fusion layer可以对离散状态的图像特征进行encode，同时也可以对连续的几何信息进行encode。app

目前有不少在BEV上的工做，都展现了很好的3D检测能力，例如：MV3D^[3]、Voxelnet^[4]等。不少方法LiDAR-Image融合的方式都是将LiDAR投影到Image坐标系再进行融合，而这篇是第一个提出将BEV与Image直接融合的工做。框架

上图是这篇文章的主要架构，这个图仍是很是直观的。能够看出主要分为3个部分：函数

Camera stream：用于提取image在不一样感觉野下的feature map；
LiDAR stream：用于提取不一样LiDAr在不一样感觉野下的feature map；
Continuous fusion layer：用于image-LiDAR多尺度的特征融合；

特征提取这边没有什么特殊的，本文主要介绍一下Continuous fusion layer。学习

Continuous fusion layer

要介绍ContFuse layer，就要先PCCN(Parametric Continuous Convolutional Network)^[5].flex

PCCN url

Grid Convspa

标准的CNN使用的是离散的卷积做为基本操做：设计

$h[n] = (f*g)[n] = \sum_{m=-M}^{M}{f[n-m]g[m]}$

Continuous Conv3d

连续卷积顾名思义它的操做是在连续空间的，因此上式变成了：

$h(x) = (f*g)(x) = \int_{-\infty}^{\infty}f(y)g(x-y)dy$

可是其实实际中咱们也很难获取连续的信号，通常也只能观察到y曲线上的数个采样点 ${y_{i}}_{i=1}^{N}$ 。所以，上式能够进行如何近似：

$h(x) = \int_{-\infty}^{\infty}f(y)g(x-y)dy\approx\sum_{i}^{N}{\frac{1}{N}f(y_{i})g(x-y_{i})}$

考虑到实际应用的复杂性，核函数也多是极其复杂的。为了便于学习和训练，依据万能近似定理（Universal approximation theorem），能够把核函数近似看做是多层感知机MLP的输出。所以上式还能够能够写成：

$h(x) \approx\sum_{i}^{N}{\frac{1}{N}f(y_{i})g(x-y_{i})}=\sum_{i}^{N}{\frac{1}{N}f(y_{i})MLP(x-y_i;\theta)}$

利用上式，咱们能够根据点i周围的点计算出其对应的特征，从而达到“插值”的效果。以下图， $x_{0}$ 处的特征值能够经过其邻域点 $y_{1},y_{2},y_{3},y_{k}$ 计算获得。

Continuous Fusion

了解PCCN的机制以后，ContFuse也就不在神秘了，下面的关键点在于如何找到LiDAR BEV上的点与Image pixel的对应关系。

具体的步骤以下：

对于BEV上的每个pixel，利用KNN找出跟它最接近的K个LiDAR points (Step 1, Step 2);
把3D points投影到image 坐标系下 (Step 3)；
找到BEV pixel对应的image feature 以及 3d offset 与BEV特征进行融合 (Step 4)；

其中3d offset指的是target pixel和点云中邻域点之间的相对位置关系，能够衡量不一样的点对target pixel的贡献程度。

Experiment

最终总体的效果相较于MV3D、AVOD有较大的提高：

关于KNN中的k，做者也作了相应的ablation study：

Conclusion

这篇文章从另外一个视角(BEV+image)将LiDAR与Image进行融合，很是有启发性。这篇只作了pixel-wise的fusion，后续的MMF在此基础上又进一步加了ROI-wise的fusion，也进一步提高了精度。

参考

^Liang, Ming, et al. "Multi-task multi-sensor fusion for 3d object detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
^Liang, Ming, et al. "Deep continuous fusion for multi-sensor 3d object detection." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
^Multi-view 3d object detection network for autonomous driving. In: CVPR (2017)
^Zhou, Y., Tuzel, O.: Voxelnet: End-to-end learning for point cloud based 3d object detection. CVPR (2018)
^Wang, S., Suo, S., Ma, W.C., Urtasun, R.: Deep parameteric convolutional neural networks. In: CVPR (2018)