Non-local Neural Networks 原理详解及自注意力机制思考

Paper: https://arxiv.org/abs/1711.07971v1  
Author:Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He (CMU, FAIR)

1 创新点

这篇文章很是重要,我的认为应该算是cv领域里面的自注意力机制的核心文章,语义分割里面引入的各类自注意力机制其实均可以认为是本文的特殊化例子。分析本文的意义不只仅是熟悉本文,而是了解其泛化思想。git

无论是cv仍是NLP任务,都须要捕获长范围依赖。在时序任务中,RNN操做是一种主要的捕获长范围依赖手段,而在CNN中是经过堆叠多个卷积模块来造成大感觉野。目前的卷积和循环算子都是在空间和时间上的局部操做,长范围依赖捕获是经过重复堆叠,而且反向传播获得,存在3个不足:github

(1) 捕获长范围依赖的效率过低;网络

(2) 因为网络很深,须要当心的设计模块和梯度;架构

(3) 当须要在比较远位置之间来回传递消息时,这是局部操做是困难的.app

故做者基于图片滤波领域的非局部均值滤波操做思想,提出了一个泛化、简单、可直接嵌入到当前网络的非局部操做算子,能够捕获时间(一维时序信号)、空间(图片)和时空(视频序列)的长范围依赖。这样设计的好处是:dom

(1) 相比较于不断堆叠卷积和RNN算子,非局部操做直接计算两个位置(能够是时间位置、空间位置和时空位置)之间的关系便可快速捕获长范围依赖,可是会忽略其欧式距离,这种计算方法其实就是求自相关矩阵,只不过是泛化的自相关矩阵ide

(2) 非局部操做计算效率很高,要达到同等效果,只须要更少的堆叠层函数

(3) 非局部操做能够保证输入尺度和输出尺度不变,这种设计能够很容易嵌入到目前的网络架构中。性能

2 核心思想

因为我主要作2d图片的CV需求,故本文的大部分分析都是针对图片而言,而不是时间序列或者视频序列。学习

本文的非局部操做算子是基于非局部均值操做而提出的,故颇有必要解释下非局部均值操做。咱们在CNN或者传统图片滤波算子中涉及的都是局部操做,例如Sobel算子,均值滤波算子等等,其计算示意图以下:

 
图片来源:吴恩达深度学习课程

能够看出每一个位置的输出值都是kernel和输入的局部卷积计算获得的,而非局部均值滤波操做是: computes a weighted mean of all pixels in an image,很是简单。核心思想是在计算每一个像素位置输出时候,再也不只和邻域计算,而是和图像中全部位置计算相关性,而后将相关性做为一个权重表征其余位置和当前待计算位置的类似度。能够简单认为采用了一个和原图同样大的kernel进行卷积计算。下图表示了高斯滤波,双边滤波和非局部均值处理过程:


 

能够看出对于待计算的中心红色点,前两种局部操做都是在邻域计算,而非局部均值是和整个图片进行计算的。可是实际上若是采用逐点计算方式,不只计算速度很是慢,并且抗干扰能力不太好,故非局部均值操做是采用Block的思想,计算block和block之间的相关性。

 

能够看出,待计算的像素位置是p,故先构造block,而后计算其余位置block和当前block的相关性,能够看出q1和q2区域和q很是类似,故计算时候给予一个大权重,而q3给予一个小的权重。这样的作法能够突出共性(关心的区域),消除差别(一般是噪声)。

 
上图能够看出非局部操做的优势,每个例子中左图是待计算像素点的位置,右图是基于NL均值操做计算出来的权重分布图,看(c)能够很是明显看出,因为待计算点位置是在边缘处,经过非局部操做后突出了所有边缘。

上面的全部分析都是基于非局部操做来说的,可是实际上在深度学习时代,能够归为自注意力机制Self-attention。在机器翻译中,自我注意模块经过关注全部位置并在嵌入空间中取其加权平均值来计算序列(例如,句子)中的位置处的响应,在CV中那就是经过关注图片中(能够是特征图)全部位置并在嵌入空间中取其加权平均值来表示图片中某位置处的响应。嵌入空间能够认为是一个更抽象的图片空间表达,目的是汇聚更多的信息,提升计算效率。听起来很是高级的样子,到后面能够看出,是很是简单的。

3 网络结构

下面开始给出非局部操做的具体公式。首先在深度学习中非局部操做能够表达为:

 

 

 

i是输出特征图的其中一个位置,通用来讲这个位置能够是时间、空间和时空。j是全部可能位置的索引,x是输入信号,能够是图像、序列和视频,一般是特征图。y是和x尺度同样的输出图,f是配对计算函数,计算第i个位置和其余全部位置的相关性,g是一元输入函数,目的是进行信息变换,C(x)是归一化函数,保证变换先后总体信息不变。以上是一个很是泛化的公式,具体细节见下面。在局部卷积算子中,通常的
 

因为f和g都是通式,故结合神经网络特定,须要考虑其具体形式。
首先g因为是一元输出,比较简单,我能够采用1x1卷积,表明线性嵌入,其形式为:

 

对于f,前面咱们说过其实就是计算两个位置的相关性,那么第一个很是天然的函数是Gaussian。

(1) Gaussian

 

对两个位置进行点乘,而后经过指数映射,放大差别。

(2) Embedded Gaussian

 

前面的gaussian形式是直接在当前空间计算,而(2)更加通用,在嵌入空间中计算高斯距离。这里:

 
 

 

 

前面两个:
 

 

 

仔细观察,若是把C(x)考虑进去,那么
 

其实就是softmax形式,完整考虑是:

 

这个就是目前经常使用的位置注意力机制的表达式,因此说语义分割中大部分通道注意力机制都是本文的特殊化。

(3) Dot product

考虑一种最简单的非局部操做形式:

 

其中C(x)=N,像素个数。能够看出(2) (3)的主要区别是是否含有激活函数softmax。

(4) Concatenation

参考 Relation Networks能够提出:

 

 

 

前面是基本的非局部操做算子,利用这些算子,下面开始构形成模块。
 

能够看出,上面构形成了残差形式。上面的作法的好处是能够随意嵌入到任何一个预训练好的网络中,由于只要设置W_z初始化为0,那么就没有任何影响,而后在迁移学习中学习新的权重。这样就不会由于引入了新的模块而致使预训练权重没法使用

下面结合具体实例分析:

 

因为咱们考虑的是图片,故能够直接设置T=1,或者说不存在。首先网络输入是X= (batch, h, w, 1024) ,通过Embedded Gaussian中的两个嵌入权重变换W_{\theta}W_{\phi}获得(batch, h, w, 512), (batch, h, w, 512), 其实这里的目的是下降通道数,减小计算量;而后分别对这两个输出进行reshape操做,变成(batch, hw, 512),后对这两个输出进行矩阵乘(其中一个要转置),计算类似性,获得(batch, hw, hw),
而后在第2个维度即最后一个维度上进行softmax操做,获得(batch, hw, hw), 意这样作就是通道注意力,至关于找到了当前图片或特征图中每一个像素与其余全部位置像素的归一化相关性;而后将g也采用同样的操做,先通道降维,而后reshape;而后和 (batch, hw, hw)进行矩阵乘,获得(batch, h, w, 512), 即将通道注意力机制应用到了全部通道的每张特征图对应位置上,本质就是输出的每一个位置值都是其余全部位置的加权平均值,经过softmax操做能够进一步突出共性。最后通过一个1x1卷积恢复输出通道,保证输入输出尺度彻底相同。

4 核心代码实现

 

拷贝的代码来源:https://github.com/AlexHex7/Non-local_pytorch

能够看出,具体实现很是简单,就不细说了。

5 扩展

通读全文,你会发现思路很是清晰,模块也很是简单。其背后的思想实际上是自注意力机制的泛化表达,准确来讲本文只提到了位置注意力机制(要计算位置和位置之间的相关性,办法很是多)。

我的认为:若是这些自注意模块的计算开销优化的很小,那么应该会成为CNN的基础模块。既然位置和位置直接的相关性那么重要,那我是否是能够认为graph CNN才是将来?由于图卷积网络是基于像素点和像素点之间建模,二者之间的权重是学习到的,性能确定比这种自监督方式更好,后面我会写文章分析。

本文设计的模块依然存在如下的不足:

(1) 只涉及到了位置注意力模块,而没有涉及经常使用的通道注意力机制

(2) 能够看出若是特征图较大,那么两个(batch,hxw,512)矩阵乘是很是耗内存和计算量的,也就是说当输入特征图很大存在效率底下问题,虽然有其余办法解决例如缩放尺度,可是这样会损失信息,不是最佳处理办法。

 

 

6 实验

Non-local Blocks的高效策略。咱们设置Wg,,的channel的数目为x的channel数目的一半,这样就造成了一个bottleneck,可以减小一半的计算量。Wz再从新放大到x的channel数目,保证输入输出维度一致。 
还有一个subsampling的trick能够进一步使用,就是将(1)式变为:yi=1C(x^)∑∀jf(xi,x^j)g(x^j),其中x^x下采样获得的(好比经过pooling),咱们将这个方式在空间域上使用,能够减少1/4的pairwise function的计算量。这个trick并不会改变non-local的行为,而是使计算更加稀疏了。这个能够经过在图2中的ϕg后面增长一个max pooling层实现。 
咱们在本文中的全部non-local模块中都使用了上述的高效策略。

6.1. 视频分类模型

为了理解non-local networks的操做,咱们在视频分类任务上进行了一系列的ablation experiments。 
2D ConvNet baseline (C2D)。为了独立开non-local nets中时间维度的影响vs 3D ConvNets,咱们构造了一个简单的2D baseline结构。 
Table 1给出了ResNet-50 C2D backbone。输入的video clip是32帧,大小为224*224。Table 1中的全部卷积都是用的2D的kernel,即逐帧对输入视频进行计算。惟一和temporal有关的计算就是pooling,也就是说这个baseline模型简单地在时间维度上作了一个聚合的操做。 
这里写图片描述

Inflated 3D ConvNet (I3D)。 Table 1中的C2D模型能够经过inflate的操做转换成一个3D卷积的结构。具体地,一个2D k*k大小的kernel能够inflate成3D t*k*k大小的kernel,只要将其权重重复t次,再缩小t倍便可。

咱们讨论2种inflate的方式。一种是将residual block中的3*3的kernel inflate成3*3*3的,另外一种是将residual block中的1*1的kernel inflate成3*1*1的。这两种形式咱们分别用I3D333I3D311表示。由于3D conv的计算量很大,咱们只对每2个residual blocks中的1个kernel作inflate。对更多的kernel作inflate发现效果反而变差了。另外conv1层咱们inflate成5*7*7。

Non-local network。 咱们将non-local block插入到C2D或I3D中,就获得了non-local nets。咱们研究了插入1,5,10个non-local blocks的状况,实现细节将在后面给出。

6.2 Non-local Network实现细节

Training。 咱们的模型是在ImageNet上pretrain的,没有特殊说明的话咱们使用32帧的输入。32帧是经过从原始长度的视频中随机选择1个位置取出64个连续帧,而后每隔1帧取1帧获得的最终的32帧。spatial size是224*224大小,是将原始视频rescale到短边为[256,320]区间的随机值,而后再random crop 224*224大小。咱们在8卡GPU上进行训练,每卡上有8 clips(也就是说总的batchsize是64 clips)。咱们一共迭代了400k iterations,初始lr为0.01,而后每150k iterations lr降低1/10。momentum设为0.9,weight decay设为0.0001。dropout在global pooling层后面使用,dropout ratio设为0.5。 
咱们finetune模型的时候 BN是打开的,这和常见的finetune ResNet的操做不一样,它们一般是frozen BN。咱们发如今咱们的实验中enable BN有利于减小过拟合。 
在最后一个1*1*1 conv层(表示Wz)的后面咱们加了一个BN层,其余位置咱们没有增长BN。这个BN层的scale参数初始化为0,这是为了保证整个non-local block的初始状态至关于一个identity mapping,这样插入到任何预训练网络中在一开始都能保持其原来的表现。

Inference。 推理时,在咱们将视频rescale到短边256进行推理。时域上咱们从整个视频中平均采样10个clip,而后分别计算他们的softmax scores,最后作平均获得整个视频的score。

6.3 实验

关于视频分类的实验,咱们在Kinetics上进行全面的实验,另外也给出了Charades上的实验结果,显示出咱们的模型的泛化性。这里只给出Kinetics上的结果,更多的请看原文。 
Table 2给出了ablation results。 
这里写图片描述


f的表现形式的影响。表2a比较了不一样的non-local block的形式插入到C2D获得的结果(插入位置在res4的最后一个residual block以前)。发现即便只加一个non-local block都能获得~1%的提升。 
有意思的是不一样的non-local block的形式效果差很少,说明是non-local block的结构在起做用,而对具体的表达方式不敏感。本文后面都采用embedded Gaussian进行实验,由于这个版本有softmax,能够直接给出[0,1]之间的scores。


哪一个阶段加入non-local blocks?表2b比较了一个non-local block加在resnet的不一样stage的效果,具体加在不一样stage的最后一个residual block以前。发如今res2,res3,res4层上加non-local block效果相似,加在res5上效果稍差。这个的可能缘由是res5的spatial size比较小,只有7*7,可能没法提供精确的spatial信息了。

加入更多的non-local blocks。表2c给出了加入更多non-local block的结果,咱们在resnet-50上加1 block(在res4),加5 block(3个在res4,2个在res3,每隔1个residual block加1个non-local block),加10 block(在res3和res4每一个residual block都加non-local block)。在resnet101的相同位置加block。发现更多non-local block一般有更好的结果。咱们认为这是由于更多的non-local block可以捕获长距离屡次转接的依赖。信息能够在时空域上距离较远的位置上进行来回传递,这是经过local models没法实现的。 
另外须要提到的是增长non-local block获得的性能提高并不仅是由于它给base model增长了深度。为了说明这一点,表2c中resnet50 5blocks可以达到73.8的acc,而resnet101 baseline是73.1,同时resnet50 5block只有resnet101的约70%的参数量和80%的FLOPs。说明non-local block获得的性能提高并不仅是由于它增长了深度。


时空域上作non-local。咱们的方法也能够处理时空域的信息,这一特性很是好,在视频中相关的物体可能出如今较远的空间和较长的时间,它们的相关性也能够被咱们的模型捕获。表2d给出了在时间维度,空间维度和时空维度分别作non-local的结果。仅在空间维度上作就至关于non-local的依赖仅在单帧图像内部发生,也就是说在式(1)上仅对index i的相同帧的index j作累加。仅在时间维度上作也相似。表2d显示只作时间维度或者只作空间维度的non-local,都比C2D baseline要好,可是没有同时作时空维度的效果好。


Non-local net vs. 3D ConvNet。表2e比较了咱们的non-local C2D版本和inflated 3D ConvNets的性能。Non-local的操做和3D conv的操做能够当作是将C2D推广到时间维度的两种方式。 
表2e也比较了param的数量,FLOPs等。咱们的non-local C2D模型比I3D更加精确(75.1 vs 74.4),而且有更小的FLOPs(1.2x vs 1.5x)。说明单独使用时non-local比3D conv更高效。


Non-local 3D ConvNet. 无论上面的比较,其实non-local操做和3D conv各有各的优势:3D conv能够对局部依赖进行建模。表2f给出了在I3D311上插入5个non-local blocks的结果。发现NL I3D都可以在I3D的基础上提高1.6个点的acc,说明了non-local和3D conv是能够相互补充的。


更长的输入序列。 最后咱们也实验了更长输入序列的状况下模型的泛化性。输入clip包含128帧连续帧,没有作下采样,是通常状况下取的32帧的4倍长度。为了将这个模型放入显存中,每一个GPU上只能放下2 clips。由于这么小的batchsize的缘由,咱们freeze全部的BN层。咱们从32帧训练获得的模型做为初始化模型,而后用128帧进行finetune,使用相同的iterations数目(虽然batchsize减少了),初始lr为0.0025,其余设置和以前保持一致。 
表2g给出了128帧的实验结果,和表2f的32帧的结果相比,全部模型都表现得更好,说明咱们的模型在长序列上的效果也很好。


和state-of-the-art的比较。表3给出了Kinetics上各个方法的结果。 
这里写图片描述

 

 

       https://www.jianshu.com/p/a9771abedf50

       https://blog.csdn.net/u010158659/article/details/78635219

相关文章
相关标签/搜索