深度学习在处理视频上几种主要技术方法

深度学习在视频内容表达上主要的几种技术方法。网络

参考:https://yq.aliyun.com/articles/39134架构

这里只作简要总结,具体请参考原文章框架

1. 基于单帧的识别方法性能

一种最直接的方法就是将视频进行截帧,而后基于图像粒度(单帧)的进行deep learninig 表达,视频的某一帧经过网络得到一个识别结果。然而一张图相对整个视频是很小的一部分,特别当这帧图没有那么的具备区分度,或是一些和视频主题无关的图像,则会让分类器摸不着头脑。所以,学习视频时间域上的表达是提升视频识别的主要因素。固然,这在运动性强的视频上才有区分度,在较静止的视频上只能靠图像的特征了。 学习

2. 基于CNN扩展网络的识别方法测试

它的整体思路是在CNN框架中寻找时间域上的某个模式来表达局部运动信息,从而得到整体识别性能的提高。网络结构总共有三层,在第一层对10帧 (大概三分之一秒)图像序列进行MxNx3xT的卷积(其中 MxN是图像的分辨率,3是图像的3个颜色通道,T取4,是参与计算的帧数,从而造成在时间轴上4个响应),在第二、3层上进行T=2的时间卷积,那么在第3层包含了这10帧图片的全部的时空信息。该网络在不一样时间上的同一层网络参数是共享参数的。视频

它的整体精度在相对单帧提升了2%左右,特别在运动丰富的视频,如摔角、爬杆等强运动视频类型中有较大幅度的提高,这从而也证实了特征中运动信息对识别是有贡献的。在实现时,这个网络架构能够加入多分辨的处理方法,能够提升速度。图片

3. 双路CNN的识别方法ip

这个其实就是两个独立的神经网络了,最后再把两个模型的结果平均一下。一个就是普通的单帧的CNN,并且文章当中提到了,这个CNN是在ImageNet的数据上pre-train,而后在视频数据上对最后一层进行调参。一个是CNN网络,就是把连续几帧的光流叠起来做为CNN的输入。 另外,它利用multi-task learning来克服数据量不足的问题。其实就是CNN的最后一层连到多个softmax的层上,对应不一样的数据集,这样就能够在多个数据集上进行multi-task learning。get

4. 基于LSTM的识别方法

它的基本思想是用LSTM对帧的CNN最后一层的激活在时间轴上进行整合。这里,它没有用CNN全链接层后的最后特征进行融合,是由于全链接层后的高层特征进行池化已经丢失了空间特征在时间轴上的信息。相对于方法2,一方面,它能够对CNN特征进行更长时间的融合,不对处理的帧数加以上限,从而能对更长时长的视频进行表达;另外一方面,方法2没有考虑同一次进网络的帧的先后顺序,而本网络经过LSTM引入的记忆单元,能够有效地表达帧的前后顺序。

上图中红色是卷积网络,灰色是LSTM单元,黄色是softmax分类器。LSTM把每一个连续帧的CNN最后一层卷积特征做为输入,从左向右推动时间,从下到上经过5层LSTM,最上的softmax层会每一个时间点给出分类结果。一样,该网络在不一样时间上的同一层网络参数是共享参数的。在训练时,视频的分类结果在每帧都进行BP(back Propagation),而不是每一个clip进行BP。在BP时,后来的帧的梯度的权重会增大,由于在越日后,LSTM的内部状态会含有更多的信息。

在实现时,这个网络架构能够加入光流特征,可让处理过程容忍对帧进行采样,由于如每秒一帧的采样已经丢失了帧间所隐含的运动信息,光流能够做为补偿。

5.  3维卷积核(3D CNN)法

3D CNN 应用于一个视频帧序列图像集合,并非简单地把图像集合做为多通道来看待输出多个图像(这种方式在卷积和池化后就丢失了时间域的信息,以下图左), 而是让卷积核扩展到时域,卷积在空域和时域同时进行,输出仍然是有机的图像集合(以下图右)。

实现时,将视频分红多个包含16帧的片断做为网络的输入(维数为3 × 16 × 128 × 171)。池化层的卷积核的尺寸是d x k x k, 第一个池化层d=1,是为了保证时间域的信息不要过早地被融合,接下来的池化层的d=2。有所卷积层的卷积核大小为3x3x3,相对其余尺寸的卷积核,达到了精度最优,计算性能最佳。 网络结构以下图所示。这个是学习长度为16帧(采样后)视频片断的基础网络结构。对于一个完整的视频,会被分割成互相覆盖8帧的多个16帧的片断,分别提取他们的fc6特征,而后进行一个简单平均得到一个4096维的向量做为整个视频的特征。                                    

经过可视化最后一个卷积层对一个连续帧序列的特征表达,能够发现,在特征开始着重表达了画面的信息,在特征的后面着重表达的是运动信息,即在运动处有相对显著的特征。以下图。

和单帧图特征在视频测试集上进行对比,3D CNN有更强的区分度

相关文章
相关标签/搜索