视频深度学习：2018行为识别指南

时间 2021-01-19

原文原文链接

动作识别困难的原因： 1 巨大的计算成本：一个简单的卷积2D网络用于101个类的分类只有~5M个参数，而相同的结构在膨胀为3D结构时会产生~33M个参数。在UCF101上训练3DConvNet需要3到4天，而在Sports-1M上训练3DConvNet则需要2个月，这使得广泛的架构搜索变得困难，而且可能过拟合 2 捕获长上下文动作识别涉及跨帧捕获时空上下文。另外，所捕获的空间信息必须补偿照相机

>>阅读原文<<