Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

时间 2021-01-21

原文原文链接

Abstract 卷积神经网络（cnn）被认为是一类有效的图像识别模型。然而，当利用CNN学习时空视频表示时，这并非不平凡。一些研究表明，执行3D卷积是一种捕获视频中时空维度的有益方法。然而，从头开始开发非常深的3d cnn会导致昂贵的计算成本和内存需求。一个有效的问题是，为什么不为3D CNN回收现成的2D网络。在本文中，我们通过在空间域（相当于2D CNN）上模拟3×3×3卷积滤波器（相当于2