Spatial-Temporal Relation Networks for Multi-Object Tracking

时间 2019-12-06

标签 spatial temporal relation networks multi object tracking 繁體版

原文原文链接

Spatial-Temporal Relation Networks for Multi-Object Tracking算法

2019-05-21 11:07:49网络

Paper: https://arxiv.org/pdf/1904.11489.pdf
app

1. Background and Motivation: 框架

多目标跟踪的目标是：定位物体而且在视频中仍然能够保持他们的身份。该任务已经应用于多种场景，如视频监控，体育游戏分析，自动驾驶等等。大部分的方法都依赖于 “tracking-by-detection” 的流程，即：首先在每一帧进行物体检测，而后在后续的视频中将其链接起来。这种分解的流程，极大地下降了整体的复杂度，而后将主要问题变成了更加纯粹的问题：object association。这种思路主要受益于物体检测领域的快速发展，而且在多个 MOT 的 benchmark 上取得了顶尖的检测效果。dom

整体来讲，这种经过联系物体（Object Association）的方法很大程度上依赖于鲁棒的类似性得分。这种类似性得分在大部分现有的方法中，都仅依赖于抠出来物体的表观特征（appearance feature）。这种类似性度量方法的结果是很是受限的：1). 所要跟踪的物体，在跟踪场景中，一般仅仅是一类，即：“Human”，一般很是难以区分；2). 跨越不一样帧的物体，一般也受到遮挡，图像质量，姿态变化的影响，从而进一步增长了其鲁棒得分的难度。ide

探索不一样信息的前人工做也都在尝试如何有效的构建类似性得分。CNN 被很好的研究而且用于编码外观信息，手工设计的位置信息也被结合到 appearance cue。Bound Box 之间的拓扑结构对于判断是否给定的 BBox 对表示同一个物体，特别对于遮挡的场景来讲。如图 1 所示，第一帧和第 t-k 帧中的橘色 BBox 和第 t 帧的蓝色 BBox 表示同一个行人。虽然第 t 帧的行人被另外一个行人遮挡了，而且其外观仍然对于前面的视频帧来讲，有较大的不一样，可是其拓扑结构仍然是一致的，使得观测到的行人身份仍然是可识别的。此外，跨帧的信息融合，也被证实对于衡量类似度来讲是有用的。函数

可是这些信息都是异构的表达，如何将这些信息进行整合，融合到一个框架中，现有的工做要么依赖于 cue-specific mechanism，要么须要顶尖的学习方法。本文的工做则是受到 natural language 和 CV 中关系网络成功应用的启发。在关系网络中，每个元素经过一个 content-aware aggregation weight 从其余元素来进行特征聚合，能够自动根据任务的目标实现自动学习，而不须要显示的监督信息。因为不须要过多关于数据格式的假设，关系网络被普遍的应用于建模 distant, non-grid 或者 differently distributed data 之间的关系，例如 word-word, pixel-pixel and object-object 之间的关系。这些数据格式的很难用常规的卷积和循环网络建模。性能

该文章中，咱们提出了一个联合的框架，经过将多种线索以一种端到端的方式进行类似性度量，从空间领域到时空领域拓展 object-object relation。有了这种关系网络的拓展，咱们能够很好的编码 objects 和 tracklets 的外观和拓扑结构。同时也能够适应基于 location 的位置信息。学习

时空关系网络受限被应用到每一帧来增强空间上物体的外观表达。而后，在其参考的 tracklet 上的加强特征随着时间，经过采用咱们的关系网络进行聚合。最终，在 tracklet 上聚合的特征，加强的目标特征被组合起来，以丰富 tracklet-object pair 的表达，并从而产生一个类似性得分。做者发现，tracklet-object pair 合适的特征表达也是类似性度量的关键所在。本文的算法被称为：spatial-temporal relation networks (STRN), 能够进行端到端的训练，而且在多个 MOT benchmark 上取得了顶尖的效果。优化

2. The Proposed Method:

MOT 问题的定义：本文的算法示意图如图 2 所示。输入是 video，而后进行物体检测，获得行人的检测结果，即：BBox。而后在每一帧中，都进行前面一些帧获得的 tracklets 和当前帧的检测结果 proposal 的匹配。那么，很天然的一个问题就是：如何很好的衡量这些 tracklets 和 proposals 之间的类似度度量问题？若是能够很好的度量其类似度，就能够很好的将其串起来，造成每个目标物体的轨迹，从而完成多目标跟踪。将第 t-1 帧以前的第 i 个以前的 tracklet 记为：$T^{t-1}_i = \{b_i^1, b_i^2, ... , b_i^{t-1}\}$，当前帧 t 中检测到的物体记为：$D_t = \{b_j^t\}_{j=1}^{N_t}$。每个 pair $(T^{t-1}_i, b_j^t)$ 被赋予一个类似性得分 $s_{ij}^t$。

本文算法总览：这篇文章就是经过时空关系网络，将上述提到的 appearance，location，topology cues，and aggregating informaton over time 都用于计算类似性得分。图 3 展现了类似性计算的整个过程。首先，首先用基础的深度网络，ResNet-50 来提取 appearance feature；而后，跨越时空的表观特征经过 Spatial-temproal relation module (STRM) 来进行推理，获得了空间加强的表达和时间加强的表达。虽然这两个加强后的特征，咱们进一步的获得两种特征，经过将其进行组合，而后分别计算其他弦类似度。最终，咱们组合 the relation feature 和 unary location feature, motion feature 做为tracklet-object pair 的表达。对应的，该类似性得分是由两层网络和sigmoid 函数获得的。

紧接着，做者对该流程中的主要模块进行详细的介绍，主要包括：Spatial-temporal relation module (STRM), the design of the feature presentation for a tacklet-object pair。

2.1 The Spatial-Temporal Relation Module:

做者首先对基础的静态物体关系模型，由 MSRA组提出的 Relation network for object detection，用于编码 context information 来进行物体检测的。

Object relation module (ORM) :

基础物体关系模型的目标是：经过在一张静态图像上的其余物体进行信息的聚合，来加强输入的表观特征。

物体关系模块能够计算一个优化的物体特征，经过从一个物体集合O 中进行信息聚合：

其中，$w_{ij}$ 是从物体 $o_j$ 到 $o_i$ 计算获得的 attention weight；$W_v$ 是输入特征的转换矩阵。而 Attention weight $w_{ij}$ 能够在考虑到投影后的表观类似性 $w_{ij}^A$，以及几何关系模型 $w_{ij}^G$以后获得：

其中，$w_{ij}^A$ 表示 the scaled dot product of projected appearance feature, 公式化表达为：

$w_{ij}^G$ 是经过相对位置，用一个小网络获得的。原始的物体关系模型仅仅在空间领域进行推理。为了更好发挥其在 MOT 中的优点，咱们将该模型拓展到 temporal domain。

Extension to the Sptial-Temporal Domain:

该物体关系模型能够直观的进行拓展，即：将上一帧的物体信息也考虑到 object set O 中。这种方法很明显是 sub-optimal：

1). 因为有更多的物体涉及到推理过程当中，复杂度明显变大了；

2). 时间和空间的关系被无差异的进行处理了。

可是，做者认为时间和空间关系对信息的编码，应该是有不一样贡献的。The spatial relation 能够从建模不一样物体之间的拓扑关系获得优点；The temporal relation 适合用于从多帧上聚合特征，从而能够避免低质量的 BBox 带来的干扰。

考虑到时空关系的不一样效果，咱们提出一种新的时空关系模型，如图1所示。首先在每一帧进行 spatial domain 的推理，该空间推理过程，利用自动学习的拓扑信息，增强了输入的表观特征。而后经过空间关系推理，将加强后的特征在多帧上进行信息聚合。

这两种关系服从不一样的形式。空间关系推理过程严格的服从 Eq. 1, 来编码拓扑信息，结果输出特征记为：。图 4 展现了不一样帧之间空间注意力权重的学习过程。总的来讲，在不一样帧上的注意力权重是稳定的，说明捕获了拓扑表达。

时间关系的推理过程是在空间关系推理以后进行的。因为硬件设备的限制，做者考虑了过去 T1 帧的信息聚合（默认设置为 10）：

在每一个输入特征上定义的 attention weight，记为：

公式 4 实际上是最近视频帧的物体特征的加权平均。学习到的时间注意力权重如图 5 所示。能够发现，模糊的，错误或者部分遮挡的物体被赋予较小的权重，代表能够自动学习到特征的质量，因此，能够很好的下降这些低质量的检测结果对 tracklet 的表达。

2.2 Design of Feature Representation :

在上面讲完关系模型的构建以后，做者接下来开始着重讲解如何学习很好的特征表达。由于特征表达直接和最终性能相挂钩。做者采用两层网络，来实现 tracklet 和 objects 之间类似性的度量：

其中，黄色区域的几个元素分别表明：relation feature, consine similarity, location features and motion features。

2.2.1 Relation Features.

做者对输入的关系特征进行 linear transform，做为 base feature type:

其中，$W_R$ 是用于 feature fusion 的线性转换。

直接利用组合后的关系特征能够计算不一样 modes 的类似性。可是，the freedom in representation is double-edged 也增长了学习各自特征的复杂度。为了解决该问题，做者提出显示的计算两个关系特征的余弦距离：

其中，$W_C$ 是一个 linear layer 将原始的关系特征，投影到低维度的表达，即128-D。具体的各类特征计算方法，以下图 6 所示：

2.2.2 Location Features :

位置/运动特征 (Location/motion feature) 是另外一种普遍应用于计算类似性得分的线索。咱们将位置/运动特征从 tracklet 的最后一帧，来表示整个的，由于远距离帧的位置/运动模型可能致使当前帧的漂移。位置特征能够结合到做者提出的 pipeline 中。将 bare location features 首先进行 embedding，投射到高维度的空间，而后将其与 relation feature 进行组合，来产生最终的类似性得分。进行映射和投影的方法以下：

其中，* 是 {L, M} 之一。第一种是包围盒归一化后的绝对位置 (the normalized absolute location of bounding box):

The other location feature depit the motion information of an object in consecutive frames:

3. Experiments:

做者在多个 MOT 的 benchmark 上进行了实验，结果以下：