《TSM:Temporal Shift Module for Efﬁcient Video Understanding》阅读笔记

时间 2021-01-07

标签深度学习卷积繁體版

原文原文链接

这篇论文的核心思想是通过在2DCNN中位移temporal维度上的channels，来实现视频中时间维度上的信息交互。作者分析了一般的卷积操作，其主要分为两个部分，1是位移，2是对应位置的权值相乘再相加。其中位移不消耗计算资源，所以，作者想到能否可以在temporal维度上位移，达到不同帧的特征信息交融来增强模型对视频信息的理解。位移过程如下图所示: 上图中，不同颜色代表不同帧的特征，其大小为ch

>>阅读原文<<