运动物体检测论文（2）

时间 2019-11-06

标签运动物体检测论文繁體版

原文原文链接

在第以前的章节中，已经提出RIMF来检测移动像素。为了计算RIMF，应首先估算GIMF。此外，RIMF的不肯定性也能够根据自我运动和视差图不肯定性来计算。

Global Image Motion Flow （GIMF）怎么计算呢？

GIMF用于表示由相机运动引发的图像运动流。给定前一图像帧中的像素位置pt-1 =（ut-1; vt-1; 1）^T，咱们能够根据Eq (1) 预测其当前帧中的图像位置pt =（ut; vt; 1）^T。。理论上，当前帧中3D静态点的图像位置对应关系能够经过前一帧中的深度信息和相机的相对运动信息来预测。可是，此预测仅在3D点来自静态对象时才起做用，而且不适用于动态对象。最后，由摄像机运动引发的图像点（u; v）^T的GIMF 光流值g =（gu; gv）^T可表示为：

Residual Image Motion Flow RIMF 计算

假设在点（u; v）处的前一帧和当前帧之间估计的MOF是m =（mu; mv）^T，则RIMF的值q =（qu; qv）^T被计算为：

理想状况下，静态点的RIMF应为零，而移动点的RIMF应大于零。简单地将RIMF绝对差别与固定阈值进行比较不会获得使人满意的结果，能将运动像素与静态像素区分开，由于不一样3D世界位置的点具备不一样的图像运动。此外，估计的不肯定性，例如，在相机运动或像素深度上，对图像点有不一样的影响。忽视这些不肯定性可能致使大量误报检测。 RIMF的不肯定性主要来自四个部分。

第一个也是最重要的一个是相机运动估计的不肯定性，由于它根据方程（1）对每一个像素具备全局影响。此外，它会影响不一样位置的像素。

第二个影响部分是深度估计的偏差，

第三个影响部分来自光流估计过程。

最后一个是像素位置噪声，它直接来自图像噪声（图像校订，相机本征和外部校准，数字图像量化等）

Motion Likelihood Estimation 运动似然估计

如上所述，固定阈值不会获得检测移动像素的使人满意的解决方案。为了处理这个问题，使用一阶高斯近似将RIMF的不肯定性从传感器传播到最终估计。如在等式（7）中，RIMF是相机运动θ，前一帧处的像素位置（u; v），视差d和测量的光流（μ; mv）的函数。在这项工做中没有考虑测量光流的不肯定性，由于它只影响局部的检测结果。基于[5]中的前向协方差传播框架，可使用以下的一阶近似来计算RIMF协方差：

其中J表示关于每一个输入变量的雅可比矩阵（例如，相机运动Θ，像素位置（u; v）和前一帧中的视差值d）和Σ= diag（ΣΘ;Σo）是协方差矩阵全部输入变量。相机运动的协方差矩阵是ΣΘ，估计过程当中的视差值的协方差矩阵是Σo=diag (σu2;σv2; σd2),其中σu和σv是用于描述相机的像素量化偏差和σd的方差。在[18]中，做者提出视差图的不肯定性也能够被认为是近似标准高斯分布，其方差能够线性近似为：

其中σ0和γ是两个常数参数，其中Ud（u; v）是位置（u; v）上的视差值的不肯定性。这里，匹配成本用做视差值的置信度度量（更多细节能够在[29]中找到）。与Σ中每一个参数的方差相比，自我运动参数，位置和视差之间的协方差能够忽略不计，而且估计过程是困难的。基于上面估计的ΣRIMF，咱们能够计算流向量移动的可能性。假设静止世界和高斯偏差传播，假设流向量遵循具备零均值和协方差矩阵ΣRIMF的高斯分布。能够经过拟合优度检验该零假设来检测与该假设的误差。或者，能够计算与RIMF向量相关联的Mahalanobis距离[30]：

其中q是在等式7中定义的特定图像位置处的RIMF向量。因为μ2q是χ2分布的，所以能够根据其μq值来计算RIMF向量的RIMF运动似然ξ（m）。

在图（3）中，子图(a),(b)是由曼哈顿距离μq产生的运动似然图像。绿色像素被检测为静态像素，红色像移动同样。在子图a中，两个骑车者来自车辆的相反方向，而且行人在与车辆相同的方向上移动，而且全部三个都被很好地检测为移动。还检测到玻璃窗中移动的汽车的阴影。在子图b中，已经检测到全部移动的行人，可是地面上的误报是由MOF偏差引发的。

运动分割

可能性阈值能够应用于运动似然图像，以便区分移动和静态像素。然而，因为不完美的MOF，检测噪声可能遍布该过程。图（3）显示了使用不一样阈值的一些检测结果。例如，不管使用哪一个阈值，帧16（子图3a）处的运动可能性估计都是良好的而且已经很好地检测到全部运动对象。尽管在帧535（子图3b）处的运动似然也被很好地估计，但因为光流的粗略估计，它仍然在静态物体的边缘上有噪声。较低的阈值致使较高的真阳性和较高假阳性; 相反，较高的阈值可能致使较差的检测率。没法肯定适合全部状况的最佳阈值。

文中使用了 Graph-Cut for Motion Segmentation （没有具体看）具体效果以下

边界框生成

应在每一个移动物体周围生成边界框。另外，还应该消除一些错误检测的像素（例如，阴影）。在咱们的方法中，咱们主要关注车辆前方30米（纵向），20米（横向）和3米（高度）的立方体检测空间。在该有限子空间中，经过将全部检测到的3D移动点投影到xOz平面上来构建密度图。密度图与累积缓冲区相关联。累积缓冲区中的单元在xOz平面上覆盖50cm×50cm的区域。

基于U-Disparity Map的ROI生成

在每一个聚类中，能够为下一个识别步骤的每一个移动对象生成边界框。区域增加用于去除冗余并使用密集视差图集成部分检测。 U-V视差图[34,35]是经典视差图的两个变体，一般用于道路和障碍物检测。 U视差图具备与原始图像相同的宽度，其经过记录沿每一个图像列共享相同视差值的像素的数量而造成。

在U视差图中，因为类似的视差值，直立对象将造成水平线。相反，每条白色水平线表明相应的直立物体。该信息能够有效地用于肯定对象的宽度。在得到边界框的宽度以后，基于视差值将区域增加[36]应用于聚类组像素的邻域。视差值在每一个簇的最小和最大视差值之间的像素被认为属于同一对象。最终的界限移动物体的框显示在5b-（e）中。

基于V-Disparity Map的聚类减小

在本文中，已经提出了一种从两个连续立体帧中检测运动物体的方法。经过用于得到每一个像素的运动似然的一阶偏差传播模型来估计自我运动不肯定性。具备高运动可能性和相似深度的像素被检测为基于图形切割运动分割方法的移动。另外，基于分割结果，能够快速识别移动物体。几个不一样的真实视频序列中的检测结果代表，咱们提出的算法在全局（相机运动）和局部（光流）噪声方面是稳健的。此外，咱们的方法适用于全部图像像素，而且能够检测任意移动的对象（包括部分遮挡）。若是没有任何跟踪策略，咱们的检测方法能够提供高召回率，而且在几个公共序列中也表现出可接受的精确率。然而，所提出的方法的计算复杂性是一个重要的问题。这主要是因为计算每一个图像像素的运动似然和使用图切算法的分割。基于GPU的算法可用于克服这一弱点[42]。此外，MOD的性能高度依赖于密集光流和视差图的结果。然而，他们在复杂动态环境（包括其余移动物体）中的估计一般变得很是困难。

视频https://youtu.be/mfSJnCoyLxc

有兴趣的小伙伴能够关注微信公众号，加入QQ或者微信群，和你们一块儿交流分享吧（该群主要是与点云三维视觉相关的交流分享群，欢迎你们加入并分享）算法