CVPR2017之ActionVLAD(对特征整合方式的改进）

时间 2021-01-09

原文原文链接

背景关于视频中的行为识别，通常会出现这种识别错误的情况：即一段视频中包含若干动作，譬如打篮球的视频中包含跑、跳、扔东西等多种行为，如何能正确地识别为投篮？当前行为识别主要有两种CNN结构：（1）第一种：3D spatio-temporal 卷积，这种方法识别准确率有待提升，优势是速度较快。（2）第二种，也就是目前常用的方法：two-stream architectures，将视频分解成图像流和

>>阅读原文<<