点击上方“小白学视觉”，选择加"星标"或“置顶”算法

重磅干货，第一时间送达微信

好消息，小伙伴之后能够经过问答的形式在文章下方进行留言，而且小白也会及时回复你们哦！

双目立体视觉是机器视觉的一种重要形式，其原理是基于视差图像造成设备，使用从两个不一样位置获取的物体图像，经过计算图像之间的对应点的位置误差来得到三个对象的三维几何信息。
网络

YOLO最初是由约瑟夫·雷德蒙（Joseph Redmon）创做的，用于检测物体。物体检测是一种计算机视觉技术，它经过在对象周围绘制边框并标识给定框也属于的类标签来对对象进行定位和标记。与大型NLP不同，YOLO设计得很小，能够为设备上的部署提供实时推理速度。架构

文献[1]提出了一种在立体图像方法中充分利用稀疏，密集，语义和几何信息的三维物体检测方法，称为立体R-CNN，用于自动驾驶。app

Stereo R-CNN的网络体系结构将输出立体框，关键点，尺寸和视点角，而后输出3D框估计和密集3D框对齐模块。
性能

Faster R-CNN扩展为立体信号输入，以同时检测和关联左右图像中的对象。稀疏的关键点，视点和对象尺寸是经过在三维区域提议网络以后添加其余分支来预测的，该分支网络与2D左右框组合以计算3D粗略对象边界框。而后，经过使用左RoI和右RoI的基于区域的光度对齐来恢复准确的3D边界框。测试

该方法不须要输入深度和3D位置，可是效果比全部现有的基于彻底监督的图像方法都要好。在具备挑战性的KITTI数据集上进行的实验代表，该方法在3D检测和3D定位任务上的性能要比最早进的基于立体的方法好30％左右。flex

网络架构ui

立体RPNspa

该模型基于传统的RPN网络，首先从左右图像中提取对位特征，而后将不一样比例的特征链接在一块儿。特征提取后，利用3×3卷积层减小通道，而后是两个同级彻底链接的图层，用于对每一个输入位置的对象性和回归框偏移进行分类，并使用预约义的多尺度框进行锚定。对于客观性分类，真值框定义为左右图像的联合GT框。

当与真值框的交集大于0.7时，锚点被标记为正样本；若是小于0.3，则将锚点标记为正样本。分类任务的候选帧包含左右真实值帧区域的信息。

RPN分类和回归的不一样目标分配。来源[1]

对于立体框回归，他们计算从新定位到目标获取联合GT框中包含的左GT框和右GT框的正锚的偏移，而后分别为左回归和右回归指定偏移。

要返回的参数定义为[u，w，u'，w'，v，h]，它们是左对象的水平位置和宽度，右对象的水平位置和宽度以及垂直位置和高度。由于输入是校订后的左右图像，因此能够认为左右对象在垂直方向上对齐。

每一个左、右目的建议都是经过相同的锚生成的，而且天然而然地，左、右目的建议是相关的。经过NMS以后，保留左，右眼仍然存在的提案关联对，进行前2000个培训，并使用前300个进行测试。

立体R-CNN

在立体声RPN以后，将ROI对齐操做应用于左右特征图。对应于concat的左右ROI功能输入到两个连续的彻底链接的层中。

使用四个分支分别预测：

对象类
与立体声rpn一致的立体声包围盒，左右对象的高度已对齐；
尺寸，首先计算平均尺寸，而后预测相对数量；
视点角

这里的回归部分与立体RPN一致，重点在于视点角度。

假设物体的方向为θ，而且汽车中心与相机中心之间的方位角为β，则视点的角度为α=θ+β。来源[1]

使用θ表示图像每一帧中车辆的运动方向。β表示目标相对于相机中心的方位角。图片中的三辆汽车具备不一样的方向，但它们在ROI图像上的投影彻底相同。

定义回归的视角α=θ+β以免中断，将训练目标设置为[sinα，cosα]而不是角度值。

除了立体框和视点角以外，他们还注意到投影到边界框的3D边界框的角能够提供更严格的约束。

3D语义关键点，2D透视关键点和边界关键点的说明。来源[1]

与Mask RCN N 相似的结构用于预测关键点。定义了四个3D语义关键点，即，车辆底部的3D角点。同时，将这四个点投影到图像上以得到四个透视关键点。这一点在3D bbox回归中起做用，咱们将在下一部分中介绍它。在关键点检测任务中，使用Roi Align得到的14 x 14特征图。卷积和解卷积后，最终得到6 x 28 x 28的特征图。

为了简化计算，它们将高度通道求和并将6×28×28转换为6×28，其中前4个通道表明将4个关键点投影到相应的u坐标的几率，后两个通道表明几率左右边界上的关键点的集合。

3D Box估计

使用稀疏关键点信息和2D边界框信息，能够估算出粗糙的3D边界框。

3D包围盒的状态被定义为x ＝ {x，y，z，θ}，其分别表示3D中心的点坐标和水平方向上的偏转角。

给定左右2D边界框，透视关键点和回归尺寸，能够经过最小化二维反投影的偏差来得到3D边界框。

从立体边界框和透视关键点中提取了七个测量参数：

它们表示左2D边界框的左，上，右和下边界，右2D边界框的左和右半径以及透视关键点坐标u。每一个参数都须要经过相机内部参数进行归一化。给定透视关键点，能够推断出3D边界框的角和2D边界框的边缘之间的对应关系。

密集3D框对齐

对于左图像中有效ROI区域的每一个归一化像素坐标值，图像偏差定义为：

I l，Ir表明左右图像透视图的三通道RGB矢量。和，

是像素i和3D边界框中心的深度误差值，b是基线的长度，只有z是咱们须要求解Objective变量的值。

他们使用双线性插值来获取正确图像中的子像素值。当前的匹配成本定义为覆盖有效ROI区域中全部像素的平方差之和：

中心点深度值z能够经过最小化当前匹配成本E来计算。咱们能够经过枚举深度值来加快最小化成本的过程。咱们枚举初始值周围每0.5米总共有50个深度值，以获得一个粗略的深度值，而后枚举每0.05米周围就总共有20个深度值，以获得一个精确的深度值。

该方法避免了在全局深度估计过程当中由一些无效像素引发的中断问题，而且整个方法更加健壮。

参考文献

Li, Peiliang, Xiaozhi Chen, and Shaojie Shen. “Stereo R-CNN based 3D Object Detection for Autonomous Driving.” arXiv preprint arXiv:1902.09738 (2019).
Chabot, M. Chaouch, J. Rabarisoa, C. Teuli`ere, and T. Chateau. Deep manta: A coarse-to-fine many-task net-work for joint 2d and 3d vehicle analysis from monocularimage. InProc. IEEE Conf. Comput. Vis. Pattern Recog-nit.(CVPR), pages 2040–2049, 2017.
J.-R. Chang and Y.-S. Chen. Pyramid stereo matching net-work. InProceedings of the IEEE Conference on ComputerVision and Pattern Recognition, pages 5410–5418, 2018.
X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urta-sun. Monocular 3d object detection for autonomous driving.InEuropean Conference on Computer Vision, pages 2147–2156, 2016.
X. Chen, K. Kundu, Y. Zhu, H. Ma, S. Fidler, and R. Urtasun.3d object proposals using stereo imagery for accurate objectclass detection. InTPAMI, 2017.
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3dobject detection network for autonomous driving. InIEEECVPR, volume 1, page 3, 2017.
M. Engelcke, D. Rao, D. Z. Wang, C. H. Tong, and I. Posner.Vote3deep: Fast object detection in 3d point clouds usingefficient convolutional neural networks. InRobotics and Au-tomation (ICRA), 2017 IEEE International Conference on,pages 1355–1361. IEEE, 2017.
A. Geiger, P. Lenz, and R. Urtasun. Are we ready for au-tonomous driving? the kitti vision benchmark suite. InCom-puter Vision and Pattern Recognition (CVPR), 2012 IEEEConference on, pages 3354–3361. IEEE, 2012

交流群

欢迎加入公众号读者群一块儿和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（之后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，不然不予经过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，不然会请出群，谢谢理解~

本文分享自微信公众号 - 小白学视觉（NoobCV）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。

基于立体R-CNN的3D对象检测

立体R-CNN

3D Box估计

密集3D框对齐

参考文献