论文笔记：Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

时间 2019-12-07

标签论文笔记 siamese cascaded region proposal networks real time visual tracking 繁體版

原文原文链接

Siamese Cascaded Region Proposal Networks for Real-Time Visual Trackinghtml

2019-03-20 16:45:23网络

Paper：https://arxiv.org/pdf/1812.06148.pdf ide

Code：（尚无）函数

背景与动机：优化

本文提出一种级联的 RPN 网络结合到 Siamese RPN 网络中，而后取得了更好的跟踪效果。本文的动机以下：
1). 正负样本的比例，不一致，致使 Siamese Network 的训练不够有效；大部分的负样本都是简单样本，对最终的结果贡献很小，因此，在出现类似物体的时候，常常会出现跟踪混淆；spa

2). Low-level spatial features 并无充分的被探索；3d

3). One-stage Siamese RPN 采用单个回归器进行物体的定位，可是实际上并无很好的处理跟踪中物体的尺寸变换的问题。利用预先定义好的 Coarse anchor Box 不能很好的进行精确的定位；orm

因而，根据上述动机，做者引入多级的 RPN 网络，来解决定位问题；同时选择 hard negative samples 来改善网络的鲁棒性。此外，做者还引入了多层特征的融合，获得了更好的特征表达。htm

网络结构：blog

1. Siamese-RPN 的简介：

　　详见其原始 paper：High performance visual tracking with siamese region proposal network

2. Cascaded RPN:

前人的方法大部分都忽略了 class imbalance 的问题，致使在出现类似性物体的时候，效果不佳。此外，他们也仅用 high-level semantic features 来进行跟踪，而不多考虑 multi-level feature。为了解决上述这两个问题，本文提出多阶段的跟踪方法，细节以下：

对于每个阶段的 RPN，其利用 FTB 模块来融合来自第 l 个 convolutional layer 的特征以及 high-level feature，融合后的特征能够用下面的公式进行表达：

其中 FTB 表明以下图所示的多特征融合模块。主要是对较低分辨率的图像利用 Deconvlutional layer 进行升分辨率处理，获得的特征卷积后，与另一支进行元素集相加（element-wise summarize）获得最终的结果，细节见图 6。

对于，RPN-1 来讲，

因此，stage l 中每个 anchor 的分类得分和回归的偏执，计算以下：

咱们用 A_l 表示在阶段 l 的 anchor set。根据分类的得分，咱们能够过滤出该集合中的样本，当其 negative confidence 大于预先设定的阈值时。而后，剩下的那些样本就构成了新的 anchor 集合 A_l+1，而且用于训练 RPN_l+1。此外，为了提供更好的初始化，咱们优化了 A_l+1 中 anchor 的 center location 以及 size，因此，产生了更加准确的定位。做者也提供了一个案例，来代表 BBox 的准确性提高。

RPN_l 的损失函数 $L_{RPN_l}$ 包含分类损失 $L_{cls}$ 以及回归损失 $L_{loc}$，其定义以下：

其中，$r_i^{l*}$ 表示 anchor i 和 gt 之间的真实距离。服从前人工做，做者也将 $r_i^{l*}$ 设置为 4d 的向量，以下所示：

其中，x, y, w, h 是 BBox 的中心点及其宽高。与常规的固定 anchor 不一样，C-RPN 的 anchors 能够进行微调：

对于第一个阶段的 anchor，$x_a^1, y_a^1, w_a^1, h_a^1$ 是预先设定的。

【注】此处关于损失函数讲的不是特别清晰，关于回归损失函数的定义，能够参考 Faster RCNN。

上述过程构成了所提出的级联 RPN。其最终的损失函数 $L_{CRPN}$ 就是各个 RPN 损失函数的和：

实验结果：