Learning Context Graph for Person Search

时间 2019-11-08

标签 learning context graph person search 繁體版

原文原文链接

Learning Context Graph for Person Searchnode

2019-06-24 09:14:03git

Paper：http://openaccess.thecvf.com/content_CVPR_2019/papers/Yan_Learning_Context_Graph_for_Person_Search_CVPR_2019_paper.pdf github

Code: https://github.com/sjtuzq/person_search_gcn 算法

Person Search Paper List: https://github.com/wangxiao5791509/Person-Search-Paper-List 网络

1. Background and Motivation: app

做者首先总结了现有的 re-ID 方法的挑战：ide

1). 现有的 re-ID 的设定（prob-gallery）是属于多模态的，例如：手机拍的照片和常规的低分辨率监控相机；学习

2). 不一样的光照和行人姿态将会增长 intra-class variation；优化

3). 不许确的检测/跟踪，遮挡和复杂背景将会致使严重的外观变化，将会进一步增长 person re-ID 的难度。spa

紧跟着，做者开始基于上述挑战，引出 re-ID 的设定，在实际应用中存在的挑战。而后，引入 person search 这个课题。现有的 person search 的方法尝试将 context/group 信息用于解决实际问题，可是这些方法仍然有以下的不足：如何定义 group 是一个很重要的任务。有的方法尝试用手工标注的方式，可是这就须要额外的人力。其余的方法有尝试利用时空信息，如：场景中的速度和相对位置，来帮助 re-ID。做者认为这些 social force models 利用协同设计的约束来模拟场景中的社交影响力，并无提供很好的解决方案，很难优化。

本文基于上述观察，提出一种新的利用 context 信息的方法，来解决 person search 的问题。首先从图像中产生不少 candidates，而后用 relative attention module 筛选出有用的图像对。在这些图像对上，构建 context graph 来建模 prob-gallery pairs 的全局类似性。图的节点是：target pair and context pairs。为了充分的利用 context 信息，做者将全部的 context nodes 都和 target nodes 进行相连。该 graph 输出的是 target pair 的类似性。

2. 算法总览：

本文的算法主要是由三个模块构成的，示意图如上图所示。

Instance Detection and Feature Learning: 在常规物体检测方法 Faster RCNN 的基础上，做者引入了 part-based feature learning，以获得更加具备判别性的表达。

Context Instance Expansion: 该模块是本文的核心，做者在 instance feature 的基础上进行拓展，引入 context information。Query 和 gallery 之间全部的 instance pairs 都被做为 context candidates，其中的 noise contexts 将会被过滤掉。这里就是采用简单的类似性度量的方法，仅将高置信度的 pairs 选出做为 information contexts。

Contextual Graph Representation Learning：这是另一个核心的模块了，做者构建 graph 来考虑 target pairs 之间的类似性。经过 GCN 来学习 prob-gallery pair 之间的类似性。

3. Instance Detection and Feature Learning :

做者将 ResNet-50 拆分红两个部分来用，前半部分用于 Pedestrian Proposal 的生成，后半部分用于 part-based feature learning。

关于 part-based feature learning，其实就是将行人划分 part，而后用 global pooling 和 local pooling 的方法获得更加具备判别性的 feature。这里的 global 和 local 分别是针对整个行人区域和行人的局部区域（本文考虑上肢，下肢，腹部三个区域）。

4. Context Instance Expansion：

划重点！划重点！划重点！因为单独的 features 并不能很好的处理实际问题中 person retrieval 任务，做者提出利用 context information 的方法来做为互补信息。如上图所示，该示例图的目标是：判断红色 BBox 中的男人，是否属于同一我的。然而，因为不一样场景下的外观变化，致使利用常规 feature 进行判断时，总不能很确信。在这个时候，做者观察到：the same persons in green BBox appear in both scenes, 因此能够更加肯定的是红色的 BBox 的确是属于同一我的。为何呢？由于这个时候，至关于用了排除法，利用 context 信息的比对，协助 target object 的对比，使其更加肯定，就是同一我的。因此，绿色 BBox 里面的行人扮演了 positive 的角色，其余的人则是 noise contexts。在这个部分，做者提出 relative attention model 来过滤掉没法提供 positive contexts 的 pair。

一种直观的方法是直接计算不一样 part 之间的 feature 距离，而后加和起来用于衡量类似度，而后设置一个阈值，获得二值结果，即：

可是这种加权的方法，并不是是最优的解决方案。由于不一样的 part 在不一样的样本上，其贡献是不一样的。因此，也有工做对其进行改善，Huang et al. 提出 instance region attention network （请参考：Huang, Qingqiu, Yu Xiong, and Dahua Lin. "Unifying identification and context learning for person recognition." CVPR-2018.）来给不一样的 parts 赋予不一样的权重。紧跟着，做者的原文是：“The attention weights measure the instance-wise part contributions, and part similarity is multiplied by both parts’ attention weights.” 感受跟公式 1 加权的思路同样啊，哪里有改进？等抽空看下这个文章再说吧。而后，做者注意到：part contributionos are not only related to sample itself, but are also related to the part to be matched。换句话说，part 的贡献是和 part pairs 相关的。受到该观测的启发，做者设计了 relative attention network 来考虑 pair-wise information 来预测 part weights。

具体来讲，本文所提出的 relative attention network 是有两个 fc 和一个 softmax layer 构成的。该网络的输入是 4 pairs of feature vectors，Softmax layer 输出 4 个归一化后的 attention weights。为了训练该网络，采用了 cosine embedding verification loss。

5. Contextual Graph Representation Learning :

在本文中，做者引入 GCN 模型来学习结构化的信息。以下图所示：

给定图像 A 和 B，模型的主要目标是：判断给定的图像对是不是同一个 Identity。这里给定了红色标志的 target pairs，以及绿色标志的 context pairs。目标就是要将这些样本结合到一个模型中，而后输出其类似性得分。具体来讲，给定这些 feature 以后，能够构建一个 graph g = {V, E}，其顶点就是 a pair of features, 其邻接矩阵 A 表示了 edge 的链接关系，其定义以下：

做者用 $\hat{A}$ 来表示归一化以后的邻接矩阵，layer-wise GCN 传递方式以下所示：

最终，做者用一层 fc 来融合全部的顶点特征为 1024-D 的特征向量。而且用一层 softmax loss layer 来进行监督的学习。

6. Experimental Results ：