主要观点:基于sliding window(SW)类的方法,如TURN,能够达到很高的AR,但定位不许;基于Group的方法,如TAG,AR有明显的上界,但定位准。因此结合二者的特长,加入Complementary Filtering(互补滤波)模块,实际上就是加一个网络预测TAG能不能搞,不能搞就用SW。算法
第一阶段:视频被划分为等长的单元,使用两层时序卷积生成unit-level的actionness score,基于这一分数序列,分别使用TAG和滑动窗口生成两组proposals,其中TAG就是分水岭算法,滑动窗口选用几种不一样的尺寸,窗口之间有必定重合,具体参数见论文4.2。网络
第二阶段:互补滤波。经过一个Proposal-level Actionness Trustworthiness Estimator(PATE)模块来评估TAG可否成功。训练时使用gt做为目标,经过TAG出来的proposals与gt之间的iou决定正负样本,将proposals内的unit-level特征池化到固定尺寸,再过两层fc和sigmoid便可。测试时将其做用于每一个SW,若是输出的分数低于阈值,则表明这个窗口内TAG大几率失效,该窗口正式成为一个proposal,不然丢弃。如此,即可得到一个正式的proposal集合。测试
第三阶段:排序和边界调整。TURN也有这一步骤,但它使用均值池化来聚合时序特征,丢弃了temporal ordering信息。本文设计一个Temporal convolutional Adjustment and Ranking(TAR)网络,使用时序卷积来聚合unit-level特征。具体地,在proposal内部,均匀采样nctl个unit(我的称之为内部特征),分别以起始点和终结点为中心各采样nctx个unit(我的称之为上下文特征)。内部特征过两层时序卷积和一层全链接,输出是动做的几率。两个上下文特征也分别经过两层时序卷积和一层全链接,输出时间offset。TAR模块的训练,对于原视频进行密集的滑窗采样做为样本,注意,这里SW的参数设定应该比第一阶段更密集,虽然我还没具体看代码。设计