论文浏览(41) STEP: Spatio-Temporal Progressive Learning for Video Action Detection


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:马里兰大学 & NVidia
    • 发表时间:CVPR 2019

1. 要解决什么问题

  • Spatio-temporal action detection 任务的难度较大
    • 一个action tube一般来说包括了空间上的变换,这会导致proposal的生成与微调更有难度。
    • 需要更好的对temporal进行建模,从而得到行为分类的效果。
  • 之前的解决方案
    • 一般是将视频分为若干clip,对每个clip提取action tube,然后再Link
    • 获取单个clip的action tube时都是基于同一个anchor
      • 可能对于空间变化较大的情况不合适。
      • 对于短的clip一般要执行offline的link操作。

2. 用了什么方法

  • 为了获取action tube,本文提出的方法不是 clip-level,而是progressive learning
    • 所谓 clip-level,就是先获取每个clip的action tube,再对不同clip的action tube进行link
    • 所谓 progressive learning,就是先生成几个框,然后向两边扩展。
  • 提出了STEP(Spatio-TEmporal Progressive action detector)
    • 首先确定action tube的长度(即帧的数量,假设为K),定义最大的 progressive step 为 S m a x S_{max} ,然后就讲视频分为 2 S m a x + 1 2*S_{max} + 1 个clip。
    • 首先初始化一些proposal,然后在递进更新 S m a x S_{max} 步,每一步都有一下操作:
      • Extend:向周边clip扩展
        • 有两种方式,Extrapolation(认为在一定时间范围内,空间变化是线性的,然后预测下一个bbox)和Anticipation(训练网络直接预测)
      • Refine(如下图):对上一部刚刚扩展的clip进行微调
        • image_1ehrkgpnk14p7nae14vv1cdaghh13.png-220.8kB
      • Update:使用贪心算法进行更新
    • STEP结构如下图
    • image_1ehrbedfl1rsc1emiekhtk1nrk9.png-219.8kB
  • 整体检测步骤如下
    • image_1ehrjvnnp1t0r1kbi1d4h1f2qm7m.png-71.8kB

3. 效果如何

  • 分别是UCF101和AVA的结果
    • image_1ehrkqkt41r9nrgq1sms1ppv82g1g.png-92.4kB

4. 还存在什么问题&有什么可以借鉴

  • 个人感觉主要优势还是在progressive方法上,但我好像用不上,所以没细看。