论文笔记：Integrated Object Detection and Tracking with Tracklet-Conditioned Detection

时间 2019-12-05

标签论文笔记 integrated object detection tracking tracklet conditioned 繁體版

原文原文链接

概要

JiFeng老师CVPR2019的另外一篇大做，真正地把检测和跟踪作到了一块儿，以前的一篇大做FGFA首次构建了一个很是干净的视频目标检测框架，可是没有实现帧间box的关联，也就是说没有实现跟踪。而多目标跟踪问题通常须要一个off-the-shelf的检测器先去逐帧检测，而后再将各帧的detection进行associate，检测与跟踪是一个“晚融合”的过程，检测是为了跟踪，跟踪却不能反哺检测。这篇文章结构很是干净，就连笔者这样对跟踪基本小白的水平也能无压力看懂。更难得的是，这篇文章是在online的设定下作的，也就是处理某一帧时只考虑当前帧及前序帧，不接触到后续帧，而以前的FGFA、D&T等工做都是offline的，online显然更贴合实际应用。算法

背景

给定一个视频的多帧\(\mathbf{I}_t, t=0, \ldots, T\)，目标是检测并跟踪t时刻及其以前的帧中全部目标\(\mathbf{D}_t = \{<d_j^t, c_j^t>\}, j=1, \ldots, m\)，\(d_j^t\)表示第t帧中的第j个tracklet，\(c_j^t\)是其类别，一个tracklet \(d^t\)由t时刻及其之全部帧中的bbox集合，\(d^t = [b_k^{t_k}]\)，\(b_k^{t_k}\)是帧\(t_k\)中的第k个bbox，\(t_k\le t\)。app

传统基于检测的在线跟踪方法，如文中的算法1所示，写的很是直白，主要看for循环里的6行。第一行逐帧检测，第四行逐帧NMS，第五行用某种跟踪算法把各帧的bbox关联起来，这一步方法就不少了，能够基于bbox之间的几何关系去匹配，也能够结合图像特征，等等，总之归纳起来就是这三下子。二、三、6行是两个可选的优化技术，第二、3行是box传播，就是经过光流之类的方法，将前序帧的bbox传播到当前帧，而后与当前帧检测出的bbox一块儿作NMS，第6行是对box的类别分数从新赋值，一般作法就是用历史的类别分数及当前帧检测出的类别分数取平均。框架

能够看到，即便用了两个技术去优化，检测依然不能从跟踪中获利。性能

Tracklet-Conditioned Detection Formulation

下面，做者展现了如何把检测和跟踪统一成一个框架，让二者在更早的阶段就相互影响，相互促进。首先将问题形式化，给定第t帧中的一堆候选box，\(b_i^t\)是一个四元组，表示一个box位置，还有t时刻以前的tracklets \(\{d_j^{t-1}\}_{j=1}^{m}\)。剩下的问题就是对每一个\(b_i^t\)进行分类，也就是
\[P(c|b_{i}^{t},\{d_j^{t-1}\}) = \sum_{j=0}^{m}w(b_i^t,d_j^{t-1})P(c|b_i^t,d_j^{t-1})\]
注意，这里的\(b_i^t\)能够是检测器第一阶段中的anchor box，也能够是第二阶段作完以后的比较稀疏的box；权重项是自适应学习出来的，权重最大的就认为是同一个目标，另外增长一个空tracklet \(d_0^{t-1}\),应对新出现的目标，当新目标出现时，这一项的权重理论上就比较大，其余项权重就比较小。这样，问题就比较好的形式化了，思路很清楚。
\[P(c|b_i^t,d_j^{t-1}) \propto \exp(\log P_{\textbf{det}}(c|b_i^t)+\alpha\log P_{\textbf{tr}}(c|d_j^{t-1}))\]
\(P_{\textbf{det}}(c|b_i^t)\)是基于当前帧预测的类别几率，用softmax来实现归一化\(\sum_{c=0}^{C} P(c|b_i^t,d_j^{t-1}) = 1\)，要注意看清楚符号，视频分析的问题符号比较多，比较容易乱。\(P_{\textbf{tr}}(c|d_j^{t-1}))\)是tracklet的类别几率，也就是一连串box取平均。具体地，
\[P_{\textbf{tr}}(c|d_j^{t}) = \frac{P(c|b_{k}^{t},\{d_j^{t-1}\}) + \beta P_{\textbf{tr}}(c|d_j^{t-1}) \text{len}(d_j^{t-1})}{1+\beta \text{len}(d_j^{t-1})}\]
\(\beta\)是一个指数衰减项，默认为0.99，看起来无伤大雅。如今还剩权重项，这一项能够直观的理解为当前帧中的box，比较像前一帧中的哪一个box，越像权重就越高，因此很天然地用当前box的特征与前面的一堆box的特征进行逐一比对，自适应地学习权重，这是比较两个box的apperance类似性，其实还应该比较box之间的geometry特性，譬如挨得越近就越多是同一物体，不过做者貌似没有从几何方面考虑，多是效果没出来，或者没时间弄了，埋个坑下一篇继续填。
\[w(b_i^t,d_j^{t-1}) = \exp(\gamma\cos(\mathcal{E}(b_i^t), \mathcal{E}(d_j^{t-1}))) \quad j>0\]
\(\mathcal{E}(b_i^t)\)和\(\mathcal{E}(d_j^{t-1})\)是把box映射成的128-D特征，具体作法下一章介绍，其实就是一层fc搞定。\(\gamma\)是一个调节项，设为8。此外还要考虑新出现的物体：
\[w(b_i^t,d_0^{t-1}) = \exp(R)\]
R设为0.3，固然，还须要归一化一下，
\[w(b_i^t,d_j^{t-1}) = \frac{w(b_i^t,d_j^{t-1})}{\sum_{k=0}^{m}w(b_i^t,d_k^{t-1})}\]
最后，空tracklet的类别几率设为均匀分布就行，
\[P_{\textbf{tr}}(c|d_0^{t}) = \frac{1}{C+1}\]
这一段比较长，符号也比较多，总结一下，中心就是第一个式子，下面这一堆都是这个式子里面每一个项的解释，just so so...学习

Tracklet-Conditioned Two-stage Detectors

上一段遗留了几个坑，一是box是怎么来的，二是哪一个128-D特征怎么来的。这一段就是把上面的思路嵌入到两阶段检测器里面。检测器使用Faster R-CNN+ResNet-101+OHEM，conv5的步长由32降为16，RPN接在conv4以后，分类和回归头接在conv5以后，就是ROI Pooling+2层fc+分类/回归。在此基础上加了一个box embedding头\(\mathcal{E}_{\text{s2}}\)，与第二阶段的分类和回归头并列;还有\(\mathcal{E}_{\text{anchor}}\)，与RPN的分类和回归头并列;以及\(\mathcal{E}_{\text{s1}}\)，用了一个比较特别的方式得到。我的以为这里\(\mathcal{E}_{\text{s1}}\)和\(\mathcal{E}_{\text{anchor}}\)其实用其中一个就能够了，但应该是考虑到性能问题，anchor的embedding是dense的，数量极大，若是两帧之间dense的embedding两两比对，计算量太大了，而\(\mathcal{E}_{\text{s1}}\)是筛选过的，一般是几百个。暂时是这样考虑的，之后可能有新的想法。
\[\mathcal{E}_{\text{s2}}(d_j^{t}) = \begin{cases} \eta \mathcal{E}_{\text{s2}}(b_k^t) + (1-\eta) \mathcal{E}_{\text{s2}}(d_j^{t-1}) \quad & \text{if } t>0, \\ \mathcal{E}_{\text{s2}}(b_k^0) \quad & \text{otherwise,} \end{cases}\]
很简单的式子，0时刻就直接用当前帧box的特征，其余时刻用当前帧box的特征与前一帧的特征的加权和，\(\eta\)默认取0.8。\(\mathcal{E}_{\text{anchor}}\)是与RPN的分类回归并列的1x1卷积，输出128xK维。\(\mathcal{E}_{\text{s1}}\)比较特别，是在ROI Pooling的特征以后又接了两层1024维的fc，再接一层128维的fc获得结果。注意这两层1024维fc不是分类和回归用的那两层，是新加上去的。做者的解释是另加两层fc可让\(\mathcal{E}_{\text{s1}}\)和\(\mathcal{E}_{\text{s2}}\)尽量去相关，准确率会更高。最后还要注意\(\mathcal{E}_{\text{anchor}}\)的比较对象是前一帧的\(\mathcal{E}_{\text{s1}}\)，而不是前一帧的\(\mathcal{E}_{\text{anchor}}\)，前面说了应该是出于计算量的考虑。测试

训练/测试/实现细节/讨论

Inference见原文算法2，顺利成章的事情，没什么好写的。Training的样本是在视频中随机采样两个连续帧，第一帧只基于图像检测，第二帧使用Tracklet-Conditioned的检测，检测loss照抄Faster，跟踪loss定义以下：
\[\begin{aligned} L &_{\text{track_box}}(b_{t-1}, b^{\text{gt}}_{t-1}, b^{\text{gt}}_{t}) = \begin{cases} (1 - \cos(\mathcal{E}(b_{t-1}), \mathcal{E}(b^{\text{gt}}_{t})))^2 \quad \text{if IoU}(b_{t-1}, b^{\text{gt}}_{t-1}) \ge 0.5\\ \max (0, \cos(\mathcal{E}(b_{t-1}), \mathcal{E}(b^{\text{gt}}_{t})))^2 \quad \text{otherwise} \\ \end{cases} \end{aligned}\]
就是按照同一目标的特征类似度应该比较大，不一样目标类似度应较小，比较好理解。
做者从准确性、鲁棒性和稳定性几个方面做了讨论，值得注意的是这个算法在稳定性方面颇有优点，也就是检测框“抖动”的现象减轻了不少，这对于实际应用很是重要。
另外还有一些细节，AssociateTracklet的过程实际上是一个二分图匹配的过程，不必定是权重最大的就认为是同一个目标，运用经典的二分图匹配算法就能够了，这在许多多目标跟踪器中也有应用。PropagateBox过程用了FlowNet2来取代opencv里自带的光流算法，不过这个过程应该只是用来复现Baseline，在做者提出的方法里并无用到？
最后，说一下我的的几点见解：优化

虽然说统一了检测和跟踪，可是跟踪只用到了上一帧的信息，这或许对稳定性有一些伤害。
对于reappear的问题是无力的，不过不少多目标跟踪的算法一样面临这个问题，当消失的目标从新出现时，会被视为新的目标，要解决这个问题就得用re-id来辅助一下了。
跟踪性能到底如何？文章只在MOT15上跟其余算法进行了pk，而且也不是最优的，再最新的MOT17上可能就更无力了。不过，整合检测和跟踪，是将来的大势所趋，能够说开了个好头，提出了一个很是干净的框架。