【视频理解论文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition(ICCV2019)

一、个人直观解读: 文章动机:就是为了对基于3DCNN的视频行为识别中的参数进行控制,同时想要达到3DCNN的效果 原文的描述就是一句话“reduce the complexity by decoupling the spatial and temporal filters” 采取的方式:还是借鉴了TSN,TRN,这一类的利用2DCNN的网络结构,然后再次基础上拓展了P3D的工作,如下图所示也就是
相关文章
相关标签/搜索