论文笔记C3D:Learning Spatiotemporal Features with 3D Convolutional Networks

思考 对视频进行描述,其描述子必须:web 1.具备广泛性以适应各类场景;网络 2.必须短小紧凑ide 3.必须利于计算svg 4.必须易于实现测试 图像识别中,特征提取的很完备和优秀,但不适用于视频。本文致力于利用3D CNN提取时空特征。咱们只用线性分类器来分类它们,以验证特征好坏。而且这些特征能够被拿来作各类视频分析任务,无需针对任务再调整模型(就笔者知道的,包括video caption,
相关文章
相关标签/搜索