视频特征提取:C3D/Learning Spatiotemporal Features with 3D Convolutional Networks

总结 3D conv在之前并没有广为盛行于视频处理领域。作者认为,相比会丢失时间信息的2D conv,3D conv非常适合时空特征学习(即针对视频),下图是2D conv和3D conv的区别。 作者使用基于3x3x3的3D conv的带有全连接层的深度卷积神经网络对视频进行特征提取,同时验证了3x3x3的3D conv性能相对其他大小的3D conv更优秀。 并且,训练好的C3D可以作为优秀的
相关文章
相关标签/搜索