MOTS：多目标跟踪和分割论文翻译

时间 2020-02-13

标签 mots 目标跟踪分割论文翻译繁體版

原文原文链接

MOTS：多目标跟踪和分割论文翻译

摘要：

本文将目前流行的多目标跟踪技术扩展到多目标跟踪与分割技术(MOTS)。为了实现这个目标，咱们使用半自动化的标注为两个现有的跟踪数据集建立了密集的像素级标注。咱们的新标注包含了10870个视频帧中977个不一样对象(汽车和行人)的65,213个像素掩膜。为了进行评估，咱们将现有的多目标跟踪指标扩展到这个任务。同时，咱们还提出了一种新的基线方法，该方法经过单个神经网络解决检测，跟踪和分割问题。咱们经过在MOTS标注(MOTS annotations)上面训练时实现性能的改进来展现咱们数据集的价值。咱们相信，咱们的数据集，指标和基线将成为开发超出2D边界框的多目标跟踪方法的宝贵资源。咱们在下面的网站上提供了注释，代码和模型：[MOTS](https: //www.vision.rwth-aachen.de/page/mots)

1、介绍：

近年来，计算机视觉领域在日益艰难的任务中取得了显著进步。深度学习技术如今在对象检测以及图像和实例分割中具备很好(impressive)的表现。可是，跟踪仍然具备挑战性，尤为是涉及多个对象时。特别是最近的跟踪评估结果代表边界级跟踪性能已经达到饱和，只有在移动到像素级别时才能进一步改进。所以，咱们建议将全部的三个任务---视为须要一块儿考虑的相互关联的问题。算法

用于训练和评估目标分割模型的数据集一般不提供关于视频数据的标注，甚至不提供关于不一样图像中对象身份的信息。另外一方面，多目标跟踪的经常使用数据集仅提供对象的边界框注释。这些可能太过于粗糙。例如：当目标被部分遮挡时，其边界框包含来自其余目标而不是自身的信息(参见图1)。在这种状况下，像素级的目标分割能够获得更加天然的场景描述，并为后续的处理提供额外的信息。对于分割掩膜，有一个定义好的ground truth，而许多不一样(non-tight)的框可能大体适合一个对象。相似地，与一般须要在评估时经过启发式匹配过程解决的ground truth相比，带有重叠边界框的跟踪会产生歧义。另外一方面，根据定义，基于分割的跟踪结果是不重叠的，所以能够直接与ground truth进行比较。api

图一：分割vs边界框。当对象相互通过时，该对象的边界框的很大一部分可能属于另外一个对象，而逐像素分割掩膜则精肯定位目标。上图显示来自KITTI MOTS数据集。

所以，本文提出将多目标跟踪任务扩展到实例分割跟踪。咱们称这个新任务为“多目标跟踪和分割(MOTS)”。就咱们所知，到目前为止尚未这个任务的数据集。虽然文献中有许多方法来用于边界框跟踪，但MOTS须要结合时间和掩码提示才能成功。所以，咱们提出TrackR-CNN做为解决MOTS任务的全部方面的基线方法。TrackR-CNN利用3D卷积扩展Mask R-CNN 以结合时间信息，并经过关联头随时间连接对象身份。网络

综上所述，本文作出以下贡献：(1) 基于流行的KITTI和MOTChallenge数据集，咱们为解决MOTS任务的训练和评估方法提供了两个具备时间一致性对象实例分割的新数据集。(2) 咱们提出了一种新的软多目标跟踪和分割准确度(sMOTSA)测量方法，能够同时对新任务的各个方面进行评估。(3) 咱们提出了TrackR-CNN做为一种解决检测、跟踪和分割问题的基线方法，并将其与现有的工做进行了比较。(4) 咱们证实了新数据集在像素级多对象跟踪器的端到端训练中的有用性。特别是，咱们的数据集代表了分割和跟踪程序的联合训练变得可能，而且在例如分割或边界框跟踪方面产生改进，这在之前是可能的。架构

2、相关工做

多目标跟踪数据集： 在多目标跟踪（MOT）任务中，必须未来自已知类集的最初未知数量的目标做为视频中的边界框来跟踪。特别是目标能够随时进入和离开场景，而且必须通过长时间的遮挡和外观变化才能恢复。许多MOT数据集专一于街景，例如KITTI跟踪数据集，其中包含来自车载摄像头的视频；MOTChallenge数据集显示了来自各类不一样视角的行人。UA-DETRAC也有街景，但仅包含车辆标注。另外一个MOT数据集是PathTrack，它提供了不一样场景中人体轨迹的标注。PoseTrack包含视频中多人的关节位置标注。这些数据集都没有为带注释的对象提供分割掩码，所以没法充分详细地描述图1中所示的复杂交互。框架

视频目标分割数据集：在视频目标分割（VOS）任务中，在视频的第一帧中提供一个或多个通用目标的实例分割，而且必须在全部后续帧中以像素精度进行分割。现有的VOS数据集仅包含不多的对象，这些对象也存在于大多数帧中。此外，此任务的常见评估指标（区域Jaccard索引和边界F-measure）不会将跟踪多个对象时可能出现的ID变换等错误状况考虑在内。相比之下，MOTS专一于一组预先定义的类别，并考虑具备许多交互对象的拥挤场景。MOTS还增长了发现和跟踪在场景中出现和消失的不一样数量的新对象的难度。函数

VOS任务的数据集包括DAVIS 2016数据集，它专一于单对象VOS，以及DAVIS 2017 数据集，它扩展了多对象VOS的任务。而且YouTube-VOS数据集一样可用，而且比DAVIS大几个数量级。此外，Segtrackv2 数据集，FBMS 和YouTube对象数据集的带注释子集均可用于评估此任务。性能

视频实例分割数据集。Cityscapes，BDD和ApolloScape为汽车场景提供视频数据。然而，实例标注仅针对非相邻帧的一小部分提供，或者在ApolloScape的状况下，针对每一个帧提供，但不随时间推移提供对象身份。所以，它们不能用于像素级跟踪方法的端到端训练。学习

方法。虽然对MOT或VOS任务提出的方法的全面回顾超出了本文的范围，但咱们将回顾已经解决MOTS任务（子集）或与在其余方面与TrackR-CNN相关的一些工做。测试

Seguin等人使用超像素级别的聚类从给定的边界框轨迹导出实例分割，但它们不解决检测或跟踪问题。米兰等人考虑利用超像素信息和给定对象检测在CRF中联合跟踪和分割。与这两种方法相反，咱们提出的基线在像素而非超像素级别上运行。 CAMOT 使用立体信息对KITTI数据集上的通用对象进行基于掩模的跟踪，这限制了其对远距离对象的准确性。CDTS 执行无监督的VOS，即不使用第一帧信息。它仅考虑具备少许对象外观和消失的短视频剪辑。然而，在MOTS中，许多物体常常进入或离开拥挤的场景。虽然上述方法可以使用分割掩模生成跟踪输出，但因为不存在具备MOTS标注的数据集，所以没法全面评估其性能。优化

Lu等人经过聚合每帧的位置和外观特征并使用LSTM跨时间组合来实现跟踪。 Sadeghian等人还使用LSTM的组合将经过裁剪检测得到的外观特征与速度和交互信息组合。在这两种状况下，组合的特征都输入到传统的匈牙利匹配程序中。对于咱们的基线模型，咱们直接使用时间信息直接丰富检测，并与检测器一块儿学习关联特征，而不只仅是给定检测进行“后处理”。

半自动注释。存在许多用于半自动实例分割的方法，例如，从涂鸦或点击生成分割掩模。这些方法须要用户输入每一个要分割的对象，而咱们的注释过程能够彻底自动地分割许多对象，让注释器专一于改善不一样状况的结果。虽然这有点相似于主动学习设置，但咱们将使用人工注释器来决定注释哪些对象，以保证全部注释都达到长期基准数据集所需的质量。

其余半自动注释技术包括Polygon-RNN，它自动预测多边形形式的分割，顶点能够由注释器校订。Fluid Annotation容许注释器操做Mask RCNN预测的片断，以便注释完整的图像。虽然加快了在隔离帧中对象的分割掩码的建立，但这些方法并不在跟踪级别上操做，也不使用现有的边界框注释，也不利用在其余视频帧中为相同对象注释的分割掩码。

3、数据集

为视频中每一个对象的每一个帧注释像素掩模是一项很是耗时的任务。所以，这种数据的可用性很是有限。咱们不知道MOTS任务的任何现有数据集。可是，有一些带有MOT标注的数据集，即在边界框级别标注的轨迹。对于MOTS任务，这些数据集缺乏分割掩模。所以，咱们的注释过程为两个MOT数据集中的边界框添加了分割掩模。总共，咱们注释了65,213个分割掩模。这种规模使咱们的数据集在训练和评估基于学习的技术方面是可行的。

半自动标注程序。为了使标注工做易于管理，咱们提出了一种半自动方法，经过分割掩模扩展边界框级别标注。咱们使用卷积网络从边界框自动生成分割掩膜，而后使用手动多边形标注进行校订步骤。每条轨迹，咱们使用手动标注做为附加训练数据来调整初始网络，相似于[6]。咱们迭代生成和校订掩模的过程，直到达到全部注释掩模的像素级精度。

为了将边界框转换为分割掩模，咱们使用基于DeepLabv3+的彻底卷积改进网络，该网络将边界框指定的输入图像做为输入，并添加了一个小的上下文区域，以及附加输入通道，将边界框编码为掩模。在此基础上，细分网络预测给定框的分割掩码。改进的网络在COCO 和Mapillary 上进行了预训练，而后针对目标数据集进行了手动建立的分割掩模的训练。

在开始时，咱们为所考虑的数据集中的每一个对象注释(做为多边形)两个分割掩膜。网络首先在全部手动建立的掩码上进行训练，而后针对每一个对象分别进行微调。而后使用这些网络的微调变量来为数据集中各个对象的全部边界框生成分割掩膜。这样，网络就适应了每一个对象的外观。对于每一个对象使用两个手工标注的分割掩码进行微调，改进的网络已经为其余帧中对象的外观生成了相对良好的掩膜，但一般仍然存在小错误。所以，咱们最终会纠正一些有缺陷的生成掩膜，并在迭代过程当中从新运行训练过程。咱们的标注器还纠正了原始MOT数据集中的不精确或错误的边框标注。

KITTI MOTS。咱们在KITTI跟踪数据集的边界框级别注释上执行了上述标注过程。标注的样本如图2所示。为了便于训练和评估，咱们将KITTI跟踪数据集2的21个训练序列分别划分为训练和验证集3。咱们的分配平衡了每一个类别的出现次数—汽车和行人—在训练和验证集中大体相等。统计数字见表1。

图 2：咱们标注的样例图片。KITTIMOTS(上)和MOTSChallenge(下)

表 1：引入的KITTI MOTS和MOTSChallenge数据集的统计数据。咱们考虑行人的数据集和汽车的KITTI MOTS。

须要相对较多的手动标注代表现有的单图像实例分割技术在此任务上仍然表现不佳。这是咱们提出的MOTS数据集的主要动机，其容许将时间推理结合到实例分割模型中。

MOTSChallenge。咱们进一步标注了MOTChallenge 2017 训练数据集4的7个序列中的4个，并得到了MOTSChallenge数据集。 MOTSChallenge专一于拥挤场景中的行人，而且因为许多遮挡状况而很是具备挑战性，由于像素方面的描述尤为有益。标注的样本如图2所示，统计数据在表1中给出。

4、评价准则

做为评估措施，咱们将完善的CLEAR MOT指标用于多目标跟踪以适应咱们的任务。对于MOTS任务，须要在评估度量中容纳每一个对象的分割掩模。受Panoptic Segmentation任务的启发，咱们要求对象的ground truth掩模和MOTS方法产生的掩模都不重叠，即每一个像素最多可分配给一个对象。咱们如今介绍咱们对MOTS的评估措施。

形式上，具备\(T\)个时间帧，高度\(h\)和宽度\(w\)的视频的ground truth由一组\(N\)个非空的ground truth像素掩模组成，其中，每一个属于相应的时间帧并被赋予ground truth 跟踪id 。MOTS方法的输出是一组\(K\)非空假设掩模，其中，每一个都被赋予一个假设的轨迹id 和一个时间帧。

创建对应关系。CLEAR MOT指标的一个重要步骤是创建ground truth对象和跟踪器假设之间的对应关系。在基于边界框的设置中，创建对应关系是非平凡的而且经过二分匹配来执行，由于ground truth框能够重叠而且多个假设框能够很好地适应给定的ground truth框。在MOTS的状况下，因为咱们要求每一个像素在ground truth和假设中都是惟一的，因此创建对应大大简化了。所以，对于给定的ground truth掩模，至多一个预测掩模能够具备大于0.5的交叉联合（IoU)。所以，从假设掩模到ground truth掩模的映射能够简单地使用基于掩模的IoU定义为

True positives的集合由映射到ground truth掩模的假设掩模组成。相似地，false positives是未映射到ground truth掩模的假设掩模，即。最后，false negatives的集合包含未被任何假设掩模覆盖的ground truth掩模。

在下文中，让表示最近跟踪的ground truth掩模的前一个(predecessor)，或者若是没有跟踪的前一个存在则∅。因此是具备相同 \(id(id_q-id_p)\) 的掩模q和使得的最大 \(t_q < t_p\) 。而后将id转换的集合IDS定义为一系列ground truth掩模，其前一个被跟踪不一样的身份。形式上，

基于掩模的评估措施。另外，咱们经过

定义了true positives数量的soft 。

鉴于以前的定义，咱们定义了原始CLEAR MOT指标的基于掩模的变体。咱们提出多对象跟踪和分割准确度（MOTSA）做为基于框的MOTA度量的基于掩模IoU的版本，即

而且基于掩模的多目标跟踪和分割精度（MOTSP）为

最后，咱们介绍了soft多目标跟踪和分割精度（sMOTSA）

它累积了 true positives 的soft number ，而不是计算有多少掩模达到超过0.5的IoU。所以，sMOTSA能够衡量分割以及检测和跟踪质量。

5、方法

为了解决检测，跟踪和分割，即MOTS任务，与神经网络联合，咱们创建在流行的Mask R-CNN 架构上，该架构经过掩模head扩展了Faster R-CNN检测器。咱们提出TrackR-CNN（参见图3），其又经过一个关联头（association head）和两个3D卷积层来扩展Mask R-CNN，以便可以随时间关联检测并处理时间动态。 TrackR-CNN提供基于掩模的检测以及关联特性。二者都输入到跟踪算法，该算法决定选择哪些检测以及如何随时间连接它们。

图三: TrackR-CNN概述。咱们经过3D卷积扩展Mask R-CNN以结合时间上下文和经过为每次检测产生关联向量的关联头。关联向量之间的欧几里德距离用于将检测随时间关联到轨迹中。与Mask R-CNN的差别以黄色突出显示。

整合时间上下文。 为了利用输入视频的临时上下文，咱们将3D卷积（其中第三个维度是时间）整合到以ResNet-101为骨干网的Mask R-CNN中。 3D卷积应用于主干特征，以便加强主干特征得时序性。而后，区域提议网络（RPN）将使用这些加强的特征。做为替代方案，咱们还考虑卷积LSTM 层。卷积LSTM经过使用卷积而不是矩阵乘积计算其激活来保留输入的空间结构。

Association Head（关联头）。为了将检测随时间关联的数据，咱们经过关联头扩展Mask R-CNN，该关联头是一个全链接层，其将区域提议做为输入而且预测每一个提议的关联向量。关联头的灵感来自用于人体从新识别的嵌入向量。每一个关联向量表示汽车或人的身份。它们的训练方式是属于同一实例的向量彼此接近，属于不一样实例的向量彼此相距遥远。咱们将两个关联向量v和w之间的距离 \(d(v, w)\) 定义为它们的欧几里德距离，即

咱们使用Hermans等人提出的batch hard triplet loss 来训练关联头适用于视频序列。这种损失对每次检测都会产生硬阳性（hard positives ）和硬阴性（hard negatives）。正式地，让\(D\)表示视频的检测集。每一个检测 \(d ∈D\) 由掩模 \(mask_d\) 和关联矢量 \(a_d\) 组成，其来自时间帧 \(t_d\) ，而且被分配由其与ground truth对象的重叠肯定的ground truth轨迹id \(id_d\) 。对于\(T\)时间步长的视频序列，具备边际\(α\)的batch-hard formulation中的关联损失由下式给出

Mask传播。 基于掩模的\(IoU\)与光流扭曲（warping）一块儿是一种强有力的提示，用于随时间关联像素掩模。所以，咱们还尝试使用掩模扭曲做为关联向量类似性的替代提示。对于在时间\(t-1\)处的检测\(d∈D\)具备掩模\(mask_d\)而且在时间\(t\)处具备掩模 \(mask_e\) 的检测\(e∈D\)，咱们定义掩模传播得分为

其中\(W(m)\)表示经过帧\(t-1\)和\(t\)之间的光流向前的扭曲掩模\(m\)。

跟踪。 为了产生最终结果，咱们仍然须要决定报告哪些检测以及如何将它们随时间连接到轨迹中。为此，咱们将现有的基于关联向量类似度的轨迹检测扩展到该轨迹的最新检测。

更确切地说，对于每一个类和每一个帧\(t\)，咱们将检测置信度大于阈值\(γ\)的当前帧的检测与以前帧中使用关联向量距离公式7选择的检测联系在一块儿。咱们只选择最近的检测，直到过去的\(β\)帧阈值。使用匈牙利算法进行匹配，同时仅容许距离小于阈值\(δ\)的成对检测。最后，全部未分配的高置信度检测都会启动新的轨迹。

生成的轨道能够包含重叠的掩码，咱们不容许执行MOTS任务（参见第4节）。在这种状况下，属于具备较高置信度的检测的像素（由咱们的网络的分类头部给出）优先于具备较低置信度的检测。

6、实验

实验设置。对于Mask R-CNN，咱们使用一个ResNet-101主干，并在COCO和Mapillary上进行预训练。而后，咱们经过添加关联头，将两个深度的3D卷积层与3×3×3滤波核(二维空间的，三维时间)、ReLU激活层以及1024个背骨与区域建议网络之间的特征映射进行集成，构建TrackR-CNN。将3D卷积初始化为一个标识函数，而后应用ReLU函数，在使用卷积LSTM时，在训练的初始步骤中，随机初始化权值，并在后续层的预训练权值的预服务激活中加入一个跳跃链接。而后，TrackR-CNN对目标数据集进行训练，即KITTI MOTS 或MOTSChallenge，使用Adam优化器，以\(5*10^{-7}\)的学习速度进行了40个循环的测试。在训练期间，使用由单个视频的8个相邻帧组成的小批量，其中8是使用Titan X (Pascal)graph-ics卡可以装入内存的最大帧数。在批处理边界处，3D卷积层的输入在时间上是零填充的。使用卷积LSTM时，梯度在训练过程当中经过所有8帧反向传播，在测试时在整个序列上传播递归状态。关联头产生的向量有128个维度，公式8中定义的关联损失是在一批检测中计算出来的。咱们选择的优点\(α= 0.2\), 这被证实是有用的。对于掩模传播实验，咱们使用PWC-Net来计算全部相邻帧对之间的光流。咱们的整个跟踪器在测试时达到了大约每秒2帧的速度。当使用卷积LSTM时，它是在线运行的，当使用3D卷积时，因为两帧的关系，它是在3D卷积以前运行的。

咱们每一个实验的跟踪系统调优的阈值\((α, β, γ)\)每个类分别在目标训练集与随机搜索进行1000次迭代。

表 2： KITTI MOTS上的结果。+ MG表示使用KITTI MOTS 微调 Mask R-CNN生成掩模。 BeyondPixels是一种先进的汽车MOT方法，使用与其余方法不一样的检测器。

主要结果。 表2显示了咱们在KITTIMOTS验证集上的结果。咱们取得了有竞争力的结果，击败了几个基准方法。Mask R-CNN + maskprop表示一个简单的基线，咱们在KITTI MOTS训练集的框架上对COCO和Mapillary预训练Mask R-CNN进行了微调。而后咱们在验证集上对其进行评估，并使用掩模传播评分(参见第5节)将基于掩模的检测随时间联系起来。与此基线相比，TrackR-CNN得到了更高的sMOTSA 和 MOTSA评分，这意味着3D卷积分层和关联头有助于识别视频中的对象。MOTSP得分也是同样的。

TrackR-CNN(box orig)表示咱们的模型在KITTI的原始边界框注释上通过无掩模头部训练的一个版本。而后咱们根据KITTI在咱们的训练片断上的原始跟踪注释来调整MOTA的分数。在咱们的MOTS设置中，咱们经过添加分割掩膜(用+MG表示)和KITTI微调掩膜R-CNN的掩膜头部做为后处理步骤来评估这一基线。这种设置的sMOTSA和MOTSA得分比咱们的方法和以前的基线更差，特别是考虑到行人时，此外，咱们还观察到，非紧密边界框并非跟踪的理想线索，而仅仅在边界框谓词上使用实例划分方法不足以解决MOTS任务。咱们在图4中显示了这条基线的定性结果。基于边界框的模型常常混淆类似的闭塞对象，致使掩膜和身份开关丢失。相反，咱们的模型假设了一致的掩模(marks)。

图 4：KITTI MOTS上的定性结果。 (a) +(c): 咱们的TrackR-CNN模型评估了KITTI MOTS的验证序列。(b)+(d): TrackR-CNN（box orig）+ MG在相同序列上的评估。在咱们的数据上使用掩模进行训练能够避免相似的近距离物体之间的混淆。

为了证实像上面那样添加分割掩膜不会带来(不)公平的优点，咱们还使用了MASK R-CNN掩膜头来替换咱们的方法生成的掩膜(TrackR-CNN (our) + MG)。结果大体类似，因此没有出现主要的(劣)优点。结合咱们的基线实验，咱们发现对于视频的时间一致性的实例分割数据的训练比没有时间信息的实例分割数据的训练和仅仅对边界框跟踪数据的训练都有优点。这两方面的联合训练在之前是不可能的，这强调了咱们提出的MOTS数据集的有用性。

CAMOT是一个基于掩码的跟踪器，它能够跟踪来自预约义类的对象和使用来自KITTI中立体设置的3D信息的通用对象。在原始版本中，CAMOT未来自SharpMask的通用对象建议做为输入。为了具备更好的可比性，咱们使用来自TrackR-CNN的检测(经过运行它做为一个正常的探测器，没有关联)做为输入。请注意，CAMOT只能跟踪立体的深度可用的区域，这限制了它的回调。结果代表，当使用相同的输入检测集时，咱们提出的跟踪方法比传统的跟踪方法CAMOT有更好的性能。

因为基于掩码的跟踪器的源代码很少，咱们也考虑了基于边界框的跟踪方法CIWT和BeyondPixels，并再次使用KITTI微调掩码R-CNN掩码头将其结果转换为分割掩码。注意，这些方法通过了调优，在最初的基于边界框的任务上表现良好。

CIWT将基于图像的信息与来自stereo的三维信息相结合，在图像和世界空间中进行联合跟踪。再次，从咱们的TrackR-CNN的检测用于可比性。咱们所提出的追踪系统在产生自适应的掩膜时，可同时处理追踪与掩膜的产生，其效能优于连续小波变换。

BeyondPixels是KITTI原始跟踪数据集中最强大的汽车跟踪方法之一。它结合了外观信息和3D线索。咱们没法运行他们的方法与咱们的检测，由于他们的代码提取外观特征是不可用的。相反，咱们使用了从RRC得到的原始检测，RRC是一种很是强大的探测器。RRC特别在KITTI上实现了精确的定位，而更为传统的MASK R-CNN检测器设计用于通常的目标检测。最终获得的sMOTSA和MOTSA的分数比咱们的方法要高，但仍然代表在MOTS上使用Mask R-CNN分割边界框时，最早进的边界框跟踪方法是有限制的。

MOTS用Ground Truth边界框。为了便于比较，咱们基于边界框ground truth获得了分割结果，并在新的标注中对其进行了评估。在这里，咱们考虑了ground truth的两个变体:来自KITTI (orig)的原始边界框，它们是模态，即若是只有一我的的上半身是可见的，边界框将仍然延伸到地面，另外一种是紧密的边界框(tight)从咱们的分割掩膜。一样，咱们使用KITTI MOTS微调的MASK R-CNN生成掩膜。咱们的研究结果代表，即便使用完美的轨迹假设，生成精确的掩模仍然具备挑战性，尤为是对行人而言。在使用模态框时更是如此，它一般包含不显示对象的较大区域。这进一步证明了咱们的观点，MOT任务能够从像素级评估中获益。进一步的基准，咱们用矩形或椭圆填充ground truth框能够在补充材料中找到。

时间成分。在表3中，咱们比较了TrackR-CNN时间份量的不一样变量。\(1×Conv3D\)和\(2×Conv3D\)表示在基干和区域建议网络之间使用一个或叠加两个深度可分的3D卷积层，每层有1024个维度。相似地，\(1×Conv\)和\(2×ConvLSTM\)表示在同一阶段有一个或两个堆叠的卷积LSTM层，每一个层有128个特征通道。在卷积LSTM中，因为门的存在，每一个特征通道的参数数更高。在最初的实验中，使用更多的特征通道彷佛没有什么帮助。最后，不添加任何额外的层做为临时组件\((None)\)。与基线相比，增长两个3D卷积层能够显著改善行人的sMOTSA和MOTSA分数，而对汽车的评分则能够进行类比。使人惊讶的是，使用卷积LSTM并无比基线产生任何显著的效果。

表 3：TrackR-CNN的不一样时间成分在KITTI MOTS上的结果比较。(a)+(c)咱们的TrackR-CNN模型对KITTI MOTS的验证序列进行了评估。(b)+(d) TrackR-CNN (box orig) + MG对同一序列进行评价。在咱们的数据上使用蒙板进行训练，能够避免附近类似物体之间的混淆。

关联机制。在表4中，咱们比较了不一样的检测关联机制。每一行都遵循第5节中介绍的建议的跟踪系统，可是匈牙利匹配步骤使用了不一样的分数。当使用关联头，关联头向量可能对过去检测到\(β\)帧进行匹配。对于其他的关联机制，只有相邻帧之间的匹配才是合理的。

表 4：TrackR-CNN的不一样关联机制在KITTI MOTS上的结果比较。

对于MASK IoU，咱们只使用来自等式9的掩模传播分数，这会下降sMOTSA和MOTSA的分数。这强调了咱们的关联头的有用性，它可使用单个神经网络提供的嵌入来超越基于光流的提示。在这里，咱们也尝试了没有关联头损失的训练\((MASK IoU(train w/oassoc.))\)，这更下降了MOTSA的分数。所以，关联损耗对检测器自己也有积极的影响。使人惊讶的是，使用边界框IoU(其中边界框被框内的光流值的中间值扭曲，\(Bbox\ IoU\))执行的效果几乎与mask IoU相同。最后，仅使用边界框中心(Bbox Center)的距离进行关联，即作最近邻搜索，会显著下降性能。

MOTS挑战。表5显示了咱们在MOTSChallenge数据集上的结果。由于MOTSChallenge只有4个视频序列，因此咱们将咱们的方法(TrackR-CNN(ours))训练成一种忽略不计的方式(用一个训练过并调整了其余3个序列的模型来评估每一个序列)。为了进行比较，咱们使用四种在MOT17基准测试中表现良好的方法的预先计算结果，并使用在MOTSChallenge上通过调优的Mask R-CNN生成掩膜(以一种遗漏的方式)来评估咱们的数据。咱们注意到，全部四组结果都使用了SDP生成的最强公共检测集，而TrackR-CNN生成了本身的检测。一样不清楚的是，这些方法有多少被训练得在MOTChallenge训练集上表现良好。尽管存在这些可能性，但TrackR-CNN的表现优于其余全部方法。最后一行代表，即便随着时间的推移，包括跟踪信息在内的严格的ground truth边界框，准确分割全部行人仍然是困难的

表 5：MOTSChallenge上的结果。+ MG表示使用域fine-tuned的Mask R-CNN生成掩模。

7、结论

到目前为止，尚未用于评估多对象跟踪和分割的任务的基准或数据集，而且使用这种时间上一致的基于掩模的跟踪信息直接训练方法。为了缓解这个问题，咱们引入了两个基于现有MOT数据集的新数据集，咱们使用半自动标注过程进行标注。咱们基于经常使用的MOTA指标进一步介绍了MOTSA和sMOTSA指标，但适用于评估基于掩模跟踪的全部方面。咱们最终开发了一个旨在利用这些数据的基线模型。咱们经过对数据的训练代表，该方法可以赛过仅用边界框轨迹和单个图像实例分割掩模训练的方法。咱们的新数据集使这种联合训练成为可能，这为将来的研究提供了许多机会。