JavaShuo
论文浏览(41) STEP: Spatio-Temporal Progressive Learning for Video Action Detection
时间 2021-01-13
文章目录
0. 前言
1. 要解决什么问题
2. 用了什么方法
3. 效果如何
4. 还存在什么问题&有什么可以借鉴
0. 前言
相关资料:
arxiv
github
论文解读
论文基本信息
领域:时空行为检测
作者单位:马里兰大学 & NVidia
发表时间:CVPR 2019
1. 要解决什么问题
Spatio-temporal action detection 任务的难度较大
一个action tube一般来说包括了空间上的变换,这会导致proposal的生成与微调更有难度。
需要更好的对temporal进行建模,从而得到行为分类的效果。
之前的解决方案
一般是将视频分为若干clip,对每个clip提取action tube,然后再Link
获取单个clip的action tube时都是基于同一个anchor
可能对于空间变化较大的情况不合适。
对于短的clip一般要执行offline的link操作。
2. 用了什么方法
为了获取action tube,本文提出的方法不是 clip-level,而是progressive learning
所谓 clip-level,就是先获取每个clip的action tube,再对不同clip的action tube进行link
所谓 progressive learning,就是先生成几个框,然后向两边扩展。
提出了STEP(Spatio-TEmporal Progressive action detector)
首先确定action tube的长度(即帧的数量,假设为
K
),定义最大的 progressive step 为
S
m
a
x
S_{max}
S
m
a
x
,然后就讲视频分为
2
∗
S
m
a
x
+
1
2*S_{max} + 1
2
∗
S
m
a
x
+
1
个clip。
首先初始化一些proposal,然后在递进更新
S
m
a
x
S_{max}
S
m
a
x
步,每一步都有一下操作:
Extend:向周边clip扩展
有两种方式,Extrapolation(认为在一定时间范围内,空间变化是线性的,然后预测下一个bbox)和Anticipation(训练网络直接预测)
Refine(如下图):对上一部刚刚扩展的clip进行微调
Update:使用贪心算法进行更新
STEP结构如下图
整体检测步骤如下
3. 效果如何
分别是UCF101和AVA的结果
4. 还存在什么问题&有什么可以借鉴
个人感觉主要优势还是在progressive方法上,但我好像用不上,所以没细看。