《TSM:Temporal Shift Module for Efficient Video Understanding》阅读笔记

这篇论文的核心思想是通过在2DCNN中位移temporal维度上的channels,来实现视频中时间维度上的信息交互。作者分析了一般的卷积操作,其主要分为两个部分,1是位移,2是对应位置的权值相乘再相加。其中位移不消耗计算资源,所以,作者想到能否可以在temporal维度上位移,达到不同帧的特征信息交融来增强模型对视频信息的理解。位移过程如下图所示: 上图中,不同颜色代表不同帧的特征,其大小为ch
相关文章
相关标签/搜索