读书笔记:Beyond Short Snippets: Deep Networks for Video Classification

主要关注两个点:如何获取视频全局上的表达(考虑更长的时序上的信息),在获取全局表达时如何避免冗余的计算量(相比3D卷积核直接应用在所有frame stacks)。 主要工作 Feature Pooling Architectures LSTM Architecture 其他 主要工作 论文中讨论了两种方法,一种是提取每一帧的深度卷积特征,再使用不同的pooling层结构进行特征融合,得到最终输出。
相关文章
相关标签/搜索