Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

Abstract 卷积神经网络(cnn)被认为是一类有效的图像识别模型。然而,当利用CNN学习时空视频表示时,这并非不平凡。一些研究表明,执行3D卷积是一种捕获视频中时空维度的有益方法。然而,从头开始开发非常深的3d cnn会导致昂贵的计算成本和内存需求。一个有效的问题是,为什么不为3D CNN回收现成的2D网络。在本文中,我们通过在空间域(相当于2D CNN)上模拟3×3×3卷积滤波器(相当于2
相关文章
相关标签/搜索