《Video Action Transformer Network》

时间 2021-01-02

原文原文链接

这周阅读了《Video Action Transformer Network》这篇文章，发表于2019年度的CVPR，并且做了oral talk，作者是卡内基梅隆和Google的研究人员，代码开源在：http://rohitgirdhar.github.io/ActionTransformer。模型的目标是针对视频中的某一帧进行动作的检测和分类（此帧中包含多个人物和不同的动作，类似于目标检测），