Deep Continuous Fusion (Uber'18) - 知乎

更多相关博客请猛戳: AutoVision
如需转载,请附上本文连接,谢谢!

以前在看MMF(Uber'19)[1]的时候发现主要是基于这篇ContFuse[2]作的,因此回过头来再总结一下这个工做,毕竟这是第一篇将image feature跟LiDAR BEV feature进行融合的文章。对MMF感兴趣的能够移步个人另外一篇博客:架构

仙道菜:Multi-Task Multi-Sensor Object Detection(Uber’19)zhuanlan.zhihu.com图标

Abstract

这篇文章就是探索如何使用LiDAR跟camera达到一个很是好的3D检测器,可以获得准确的物体位置信息。为了达到这个目的,做者设计了一个end-to-end的学习框架,利用continuous convolution对LiDAR与camera进行不一样感觉野上的特征融合。该论文设计的continuous fusion layer可以对离散状态的图像特征进行encode,同时也可以对连续的几何信息进行encode。app

目前有不少在BEV上的工做,都展现了很好的3D检测能力,例如:MV3D[3]、Voxelnet[4]等。不少方法LiDAR-Image融合的方式都是将LiDAR投影到Image坐标系再进行融合,而这篇是第一个提出将BEV与Image直接融合的工做。框架

上图是这篇文章的主要架构,这个图仍是很是直观的。能够看出主要分为3个部分:函数

  1. Camera stream:用于提取image在不一样感觉野下的feature map;
  2. LiDAR stream:用于提取不一样LiDAr在不一样感觉野下的feature map;
  3. Continuous fusion layer:用于image-LiDAR多尺度的特征融合;

特征提取这边没有什么特殊的,本文主要介绍一下Continuous fusion layer。学习

Continuous fusion layer

要介绍ContFuse layer,就要先PCCN(Parametric Continuous Convolutional Network)[5].flex

PCCN url

Grid Convspa

标准的CNN使用的是离散的卷积做为基本操做:设计

h[n] = (f*g)[n] = \sum_{m=-M}^{M}{f[n-m]g[m]}

Continuous Conv3d

连续卷积顾名思义它的操做是在连续空间的,因此上式变成了:

h(x) = (f*g)(x) = \int_{-\infty}^{\infty}f(y)g(x-y)dy

可是其实实际中咱们也很难获取连续的信号,通常也只能观察到y曲线上的数个采样点 {y_{i}}_{i=1}^{N} 。所以,上式能够进行如何近似:

h(x) = \int_{-\infty}^{\infty}f(y)g(x-y)dy\approx\sum_{i}^{N}{\frac{1}{N}f(y_{i})g(x-y_{i})}

考虑到实际应用的复杂性,核函数也多是极其复杂的。为了便于学习和训练,依据万能近似定理(Universal approximation theorem),能够把核函数近似看做是多层感知机MLP的输出。所以上式还能够能够写成:

h(x) \approx\sum_{i}^{N}{\frac{1}{N}f(y_{i})g(x-y_{i})}=\sum_{i}^{N}{\frac{1}{N}f(y_{i})MLP(x-y_i;\theta)}

利用上式,咱们能够根据点i周围的点计算出其对应的特征,从而达到“插值”的效果。以下图,x_{0}处的特征值能够经过其邻域点y_{1},y_{2},y_{3},y_{k} 计算获得。

Continuous Fusion

了解PCCN的机制以后,ContFuse也就不在神秘了,下面的关键点在于如何找到LiDAR BEV上的点与Image pixel的对应关系。

具体的步骤以下:

  1. 对于BEV上的每个pixel,利用KNN找出跟它最接近的K个LiDAR points (Step 1, Step 2);
  2. 把3D points投影到image 坐标系下 (Step 3);
  3. 找到BEV pixel对应的image feature 以及 3d offset 与BEV特征进行融合 (Step 4);

其中3d offset指的是target pixel和点云中邻域点之间的相对位置关系,能够衡量不一样的点对target pixel的贡献程度。

Experiment

最终总体的效果相较于MV3D、AVOD有较大的提高:

关于KNN中的k,做者也作了相应的ablation study:

Conclusion

这篇文章从另外一个视角(BEV+image)将LiDAR与Image进行融合,很是有启发性。这篇只作了pixel-wise的fusion,后续的MMF在此基础上又进一步加了ROI-wise的fusion,也进一步提高了精度。

参考

  1. ^Liang, Ming, et al. "Multi-task multi-sensor fusion for 3d object detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
  2. ^Liang, Ming, et al. "Deep continuous fusion for multi-sensor 3d object detection." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
  3. ^Multi-view 3d object detection network for autonomous driving. In: CVPR (2017)
  4. ^Zhou, Y., Tuzel, O.: Voxelnet: End-to-end learning for point cloud based 3d object detection. CVPR (2018)
  5. ^Wang, S., Suo, S., Ma, W.C., Urtasun, R.: Deep parameteric convolutional neural networks. In: CVPR (2018)
相关文章
相关标签/搜索