CVPR2017之ActionVLAD(对特征整合方式的改进)

背景 关于视频中的行为识别,通常会出现这种识别错误的情况:即一段视频中包含若干动作,譬如打篮球的视频中包含跑、跳、扔东西等多种行为,如何能正确地识别为投篮? 当前行为识别主要有两种CNN结构:(1)第一种:3D spatio-temporal 卷积,这种方法识别准确率有待提升,优势是速度较快。(2)第二种,也就是目前常用的方法:two-stream architectures,将视频分解成图像流和
相关文章
相关标签/搜索