【视频理解论文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition（ICCV2019）

时间 2021-01-02

原文原文链接

一、个人直观解读：文章动机：就是为了对基于3DCNN的视频行为识别中的参数进行控制，同时想要达到3DCNN的效果原文的描述就是一句话“reduce the complexity by decoupling the spatial and temporal filters” 采取的方式：还是借鉴了TSN，TRN，这一类的利用2DCNN的网络结构，然后再次基础上拓展了P3D的工作，如下图所示也就是