[行为识别]RPAN:An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos

这是一篇视频动作识别的论文,但值得注意的是,他利用了pose estimation的信息,即视频中人物的关节点的信息。论文没有在常见的HMDB和UCF101上测试,而是在两个带有关节点信息的小数据集上进行了测试, Sub-JHMDB and PennAction。 一、文章框架 1.卷积特征 本文首先用TSN提取每帧图片的feature map, 9×15×1024。即上图中的Ct,TSN并没有画
相关文章
相关标签/搜索