视频深度学习:2018行为识别指南

动作识别困难的原因: 1 巨大的计算成本: 一个简单的卷积2D网络用于101个类的分类只有~5M个参数,而相同的结构在膨胀为3D结构时会产生~33M个参数。在UCF101上训练3DConvNet需要3到4天,而在Sports-1M上训练3DConvNet则需要2个月,这使得广泛的架构搜索变得困难,而且可能过拟合 2 捕获长上下文 动作识别涉及跨帧捕获时空上下文。另外,所捕获的空间信息必须补偿照相机
相关文章
相关标签/搜索