CTAP: Complementary Temporal Action Proposal Generation论文笔记

时间 2019-12-14

标签 ctap complementary temporal action proposal generation 论文笔记繁體版

原文原文链接

主要观点：基于sliding window（SW）类的方法，如TURN，能够达到很高的AR，但定位不许；基于Group的方法，如TAG，AR有明显的上界，但定位准。因此结合二者的特长，加入Complementary Filtering（互补滤波）模块，实际上就是加一个网络预测TAG能不能搞，不能搞就用SW。算法

第一阶段：视频被划分为等长的单元，使用两层时序卷积生成unit-level的actionness score，基于这一分数序列，分别使用TAG和滑动窗口生成两组proposals，其中TAG就是分水岭算法，滑动窗口选用几种不一样的尺寸，窗口之间有必定重合，具体参数见论文4.2。网络

第二阶段：互补滤波。经过一个Proposal-level Actionness Trustworthiness Estimator（PATE）模块来评估TAG可否成功。训练时使用gt做为目标，经过TAG出来的proposals与gt之间的iou决定正负样本，将proposals内的unit-level特征池化到固定尺寸，再过两层fc和sigmoid便可。测试时将其做用于每一个SW，若是输出的分数低于阈值，则表明这个窗口内TAG大几率失效，该窗口正式成为一个proposal，不然丢弃。如此，即可得到一个正式的proposal集合。测试

第三阶段：排序和边界调整。TURN也有这一步骤，但它使用均值池化来聚合时序特征，丢弃了temporal ordering信息。本文设计一个Temporal convolutional Adjustment and Ranking（TAR）网络，使用时序卷积来聚合unit-level特征。具体地，在proposal内部，均匀采样n_ctl个unit（我的称之为内部特征），分别以起始点和终结点为中心各采样n_ctx个unit（我的称之为上下文特征）。内部特征过两层时序卷积和一层全链接，输出是动做的几率。两个上下文特征也分别经过两层时序卷积和一层全链接，输出时间offset。TAR模块的训练，对于原视频进行密集的滑窗采样做为样本，注意，这里SW的参数设定应该比第一阶段更密集，虽然我还没具体看代码。设计