SlowFast Networks for Video Recognition

题目:《SlowFast Networks for Video Recognition》

链接:https://arxiv.org/pdf/1812.03982.pdf

代码链接:https://github.com/r1ch88/SlowFastNetworks

1、文章摘要翻译

我们提出了用于视频识别的SlowFast 网络。我们的模型包括:(i)一条Slow路径,以低帧速率运行,以捕获空间语义;(i i)一条Fast路径,以高帧速率运行,以精细的时间分辨率捕获运动。Fast通道可以通过减少通道容量而变得非常轻量,但可以学习有用的时间信息用于视频识别。我们的模型在视频动作分类和检测方面都取得了较好的性能,我们的SlowFast 的概念对性能有很大的改进,并在Kinetics, Charades 和AVA等基准上取得了最好的效果。

2、论文的灵感来源

观察发现,视频不同于图像(图像各向同性,所有方向都是等可能的,可以对称处理两个空间维度x和y),视频中所有时空方向的可能性并不相同,慢动作比快动作更可能发生(事实上,我们所看到的世界大部分在某一时刻都处于静止状态),我们可以分解网络结构来分别处理空间信息和时间事件。

空间范畴的语义演化缓慢,比如挥手不会改变“手”的类别,一个人从步行转为跑步,也总是处于“人”的类别。因此,对分类语义(以及它们的颜色、纹理、光照等)的识别可以相对缓慢地刷新。但对于正在执行的动作可以比其主体身份更快地发展,例如拍手,挥手,摇晃,行走或跳跃。可以期望使用快速刷新帧(高时间分辨率)来有效地模拟可能快速变化的运动。

基于上述的观察,提出了一个视频识别的双路径SlowFast 模型。根据上述描述,slow路径显然是为了捕获空间语义信息,并且顾名思义,该路径以较低的帧速率和较慢的刷新速度运行。fast路径负责捕捉快速变化的运动,以快速刷新速度和高时间分辨率运行。尽管这条路径具有很高的时间速率,但它非常轻,约占总计算量的20%。这是由于该路径有较少的通道和较弱的能力来处理空间信息,因为空间信息可以由slow路径提供。这两条path是由横向连接融合。

fast路径由于其轻量性,不需要时间池化操作(因为它可以在所有中间层的高帧速率下运行,并保持时间准确性)。slow路径由于时间速率较慢,更加关注空间语义。通过以不同的时间速率处理原始视频,这两种途径在视频建模方面拥有自己的专业知识(fast掌握时间信息,slow掌握空间信息)。

two-stream模型也是双流设计,但它没有探索不同时间速度的潜力,而这是我们方法中的一个关键概念。此外,two-stream方法对两个流采用相同的主干结构,而我们的快速路径更轻。我们的方法不计算光流,因此,我们的模型是从原始数据端到端学习的。在我们的实验中,我们观察到SlowFast 网络更有效。我们对Kinetics 行为分类的综合消融实验证明了Slowfast的效果。重要的是,Slowfast Networks在四个数据集(Kinetics400 、Kinetics600 、AVA、Charades )上都实现了最高的水准。

3. SlowFast网络介绍

SlowFast网络可以被描述为以两种不同帧速率运行的单流体系结构,有一条Slow的道路和Fast通道,通过横向连接至SlowFast网络。如下图1所示。

可以看出,fast路径的时间维度分辨率和通道数分别是slow路径的α倍和β倍

3.1. Slow pathway介绍

Slow 路径可以是任何卷积模型,例如时空残差网络,C3D,I3D,Non-local网络等。Slow 路径的关键概念是输入帧上的大时间跨度τ(这里的"大"是指时间维度的步长较fast路径更长些),即它只处理τ帧中的一个。我们研究的一个典型的τ值是16。slow路径采样后的帧数表示为t,则原始剪辑长度为t×τ帧(因为每τ帧采样一帧)。

3.2. Fast pathway介绍

fast路径与slow路径平行,它是另一个具有以下特性的卷积模型。

(1)High frame rate.

还记得摘要里提过“fast路径以精细的时间分辨率捕获运动”,"精细的时间分辨率"指的是fast路径在时间维度的步长较slow路径短一些,即采样密度大一些,还记得slow路径是每τ帧采样一帧(设置τ等于16),fast路径采样更快,以τ/α的步幅采样,其中α>1是快速和慢速通道之间的帧速率比,因此fast路径采样密度是slow路径的α倍。一个典型值是α=8,也就是说fast路径每2帧采样一帧。这两个路径在同一个原始片段上运行,在我们的实验中,α的存在是SlowFast概念的关键(如图1中的时间轴对比)。它明确地表明,这两个路径在不同的时间速度下工作。

(2)High temporal resolution features.

我们的快速通道不仅具有高输入分辨率,而且在整个网络层次上追求高分辨率特征。在我们的实例中,我们在整个快速路径中不使用时间降采样层(既不使用时间池化也不使用时间步卷积),直到分类前的全局池化层。因此,我们的特征张量总是沿时间维度具有αt帧(因为slow路径采样后的帧数表示为t,fast路径采样密度是slow路径的α倍,故为αt帧),尽可能保持时间准确度。

(3)Low channel capacity.

如摘要所言“Fast通道可以通过减少通道容量而变得非常轻量”,如图一所示,fast路径的通道数是slow路径的β倍(β<1),通常β= 1/8。这使得Fast途径比Slow途径更具计算效率。在我们的实例中,Fast路径通常占总计算的约20%。

低通道容量也可以被解释为表示空间语义的能力较弱。因为fast路径通道较少,因此它的空间建模能力应该低于slow路径。模型的结果表明,在增强fast路径的时间建模能力的同时,弱化fast路径的空间建模能力是一种理想的折衷方法。在这种解释的推动下,我们还探索了削弱fast通道中空间容量的不同方法,包括降低输入空间分辨率和去除颜色信息。正如我们将通过实验展示的那样,这些版本都可以提供良好的准确性,这表明可以使具有较小空间容量的轻量级fast通道变得有益。

3.3. Lateral connections

slow路径学习空间信息,fast路径学习时间信息,和two-stream网络的两个分支一样需要在预测前进行融合。我们通过横向连接来实现这一点,横向连接用于融合基于光流的双流网络[9,10]。在图像对象检测中,横向连接(在目标检测的特征金字塔那篇文章提出,本文参考文献的32)是一种融合不同层次空间分辨率和语义的常用技术。

与[9,32]相似,我们在每个“阶段”的两个路径之间附加一个横向连接(图1)。特别是对于resnet[21],这些连接位于pool1、res2、res3和res4之后。这两条通路具有不同的时间维度,因此横向连接进行转换以匹配它们(详见第3.4)。我们使用单向连接将fast路径的特征融合到Slow通路中(图1)。 我们已经尝试了双向融合,并发现了类似的结果。最后,对每个路径的输出执行全局平均池化。 然后将两个合并的特征向量连接为完全连接的分类器层的输入。

3.4. Instantiations

我们对SlowFast的想法是通用的,它可以用不同的backbones (例如,[42,44,21])和实现细节来实例化在本小节中,我们将描述网络体系结构的实例。我们用t×s^2表示时空尺寸,其中t是时间长度,s是正方形空间高度和宽度。接下来将介绍详细信息。

Slow pathway.表1中的slow路径是从[9]修改的时间跨度3D ResNet。 它具有T = 4帧作为网络输入,是从时间步幅τ= 16的64帧原始剪辑稀疏地采样得到的。我们选择不在这个实例中执行时间降采样,因为这样做在步幅较大时是有害的。因为实验观察发现在早期层中使用时间卷积会降低准确性。我们认为这是因为当物体快速移动且时间步幅大时,在时间感受野内几乎没有相关性,除非空间感受野足够大。例如,对于快速运动的运动员,如果采样步幅较长,得到的前后两帧没什么相关性、

Fast pathway.表1显示了α=8和β=1/8的快速途径示例。它具有更高的时间分辨率(绿色,即多个帧画面)和更低的通道容量(橙色)。快速通道在每个区块都有非退化的时间卷积(时间步长大于1)。这是由于观察到这条路径具有很好的时间分辨率,以便时间卷积捕获详细的运动。此外,快速通道的设计没有时间降采样层。

Lateral connections.

我们的横向连接从快速通道到慢速通道融合。它需要在融合前匹配特征的大小。将慢速通路的特征形状表示为{T,S^2,C},快速通路的特征形状为{αT,S^2,βC}。 我们在横向连接中尝试以下转换:

(i)通道时间:我们重塑并将{αT,S^2,βC}转换为{T,S^2,αβC},意味着我们将所有α帧打包到一帧的通道中。

(ii)时间步长采样:我们只是对每个α帧中的一个进行采样,因此{αT,S^2,βC}变为{T,S^2,βC}

(iii)时间步长卷积:我们用2βC输出通道和stride =α执行5×1^2内核的3D卷积。

横向连接的输出通过求和或连接融合到慢路径中。

4. Experiments: Action Classification

5. Experiments: AVA Action Detection

6. Conclusion翻译

时间轴是一个特殊的维度。本文研究了一种结构设计方案,该方案比较了沿该轴的速度。它实现了最先进的视频动作分类和检测精度。我们希望这种SlowFast的概念将促进对视频识别的进一步研究