读书笔记：Beyond Short Snippets: Deep Networks for Video Classification

时间 2021-01-13

原文原文链接

主要关注两个点：如何获取视频全局上的表达（考虑更长的时序上的信息），在获取全局表达时如何避免冗余的计算量（相比3D卷积核直接应用在所有frame stacks）。主要工作 Feature Pooling Architectures LSTM Architecture 其他主要工作论文中讨论了两种方法，一种是提取每一帧的深度卷积特征，再使用不同的pooling层结构进行特征融合，得到最终输出。