视频分类算法(《《Learnable pooling with Context Gating for video classification》)

一般的视频理解方法通常对一段视频的间隔帧提取特征,取它们的极大值或均值来代表整段视频的特征,这是一种很简单的视频表示方法,但是容易陷入局部最优解,论文为此探索了一种可学习的池化技巧(learnable pooling techniques),它将多个算法(比如 Soft Bag-of-words, Fisher Vectors, NetVLAD, GRU and LSTM)相结合,共同组成视频特征
相关文章
相关标签/搜索