Squeeze Excitation Module 对网络的改进分析

时间 2019-11-09

标签 squeeze excitation module 网络改进分析栏目系统网络繁體版

原文原文链接

　　Squeeze-and-Excitation Networks服务器

　　SE-net 来自于Momenta 孙刚团队网络

　　SE的设计思路：ide

　　　　从卷积操做的实际做用来考虑，conv 把局部空间信息和通道信息组合起来，组合以后造成FM上的值，以前大部分都是空间上作的。函数

　　　　对channel考虑的少，可是卷积自己就能够学到通道之间的组织信息，为何还要在从新学一遍呢？性能

　　　　那思考densenet显式链接各层，resnet能够连到，DN为什么要再连一次？学习

　　　　咱们指望特征学习能力，可是须要显式建模来帮助学习测试

　　1 SE-net的灵感google

　　VGG 网络将 Alexnet 7*7 和 5*5 替换成了3*3 的卷积核spa

　　Wide Resnet以下右：设计

　　除此以外，GoogleNet 内部inxeption 实际使用的是一个多尺度的结构。

　　googlenet 是将卷积在空间维度上进行组合

　　ResNeXt 是将左边的分支结构极端化，在不一样的通道上进行group conversation，最后concat

　　咱们但愿conv filter 能够在local receptive fields的基础上融合 channel-wise 和 spatial 的信息做融合。

　　下图左边inception将卷积核在空间上进行了组合，右图inside-outsideNetwork 将不一样方向的卷积在空间上组合到了一块儿

　　2 Squeeze-and-Excitation Networks

　　网络是否能够在通道关系方面作加强呢？

　　动机：

　　对于通道内部依赖作了显示的建模，选择强化有用的特征，抑制无用的特征

　　SE module 结构：

　　Ftr：X到U的卷积过程，可是通道之间的关系并无发生变化：

　　Fsq：将每一个通道作了一个squeeze操做，将每一个通道表示成了一个标量，获得per channel的描述

　　Fex：将per channel标量进行“激活”，能够理解为算出了per channel的W

　　最后将per channel的W乘回到原来的feature map上获得加权后的channel，将channel 作了恰当的融合

　　SE-Module 能够用于网络的任意阶段

　　squeeze 操做保证了，在网络的早期感觉野就能够大到全图的范围。

　　SE-inception Module and SE-ResNet Module:

　　下图左边将Inception Module 转化成SE 模块，在此操做中使用squeeze操做是Global polling 操做，也可使用Global conv 操做，可是考虑到feature map 比较大的时候，G C 的W 也会比较大，因此选择用pooling，一种max 一种average plooing

　　最终选择的是average pooling，主要的考虑是，若是作检测任务，输入FM 大小是变化的，average 基本能够保持能量。若是用max FM 越大，能量不能保持，好比小的FM 求max 和大的 FM 求 max 在测试时候并不等价。因此选择average pooling。获得1*1*c的向量。

　　后面能够接FC，可是为了减小参数，作了降维操做，增长了一个降维的系数r，输出 1*1*C/r

　　后接RELU，后面在作一个升维操做，获得1*1*C

　　最终使用S函数进行激活。

　　能够看到参数量主要取决与FC，在实验时r通常取16，经验值！

　　右图中，是resnet module，改造和inception分支很相似。

　　Architectures:

　　fc[16,256]表示,r 降维系数是16，会先降到16，而后升到256

　　在SE-ResNeXt-50中（32*4d）中，将3*3卷积变成了group卷积，c取32

　　模型cost分析：

　　1 ，参数量

　　2 ，运算速度

　　参数量主要来自于在block内部增长的FC，会增长3%-10%的参数量，通常是10%，可是在某些状况下，网络在靠近输出的状况下

　　做者把7*7上的FC SE去掉了，获得总参数占3%，可是在TOP5的精度损失不到1%，很是的Cost-effective

　　其余的BN，RELU，POOLING 理论的计算量少。可是全链接对比卷积引发的计算量也不多

　　理论上计算量增长的计算量不到1%

　　实际inference GPU 时间增长了10%，分析缘由多是卷积核频繁操做， GPU运算不太友好，大size POOling的问题

　　CPU 测试和理论分析值接近。

　　训练的状况：

　　内部服务器：

　　Momenta ROCS

　　先对类别进行sample，再对类别内的图片进行sample，能够确保看到每一个类别内图片几率的都是相同的

　　组员在以前场景分类用的小技巧，不是对图像随机采样，而是先对类别进行采样，再在每一个特定类别中选去一张图像

　　能够保证数据见到的很平衡的，提升训练结果。

　　训练超参数：

　　任何网络保证每张卡能够处理32张图像，batchsize:1024 / 2048.当batch_size 是2048时候，LR能够调到1

　　实验部分：

能够看到添加SE之后计算量并无增长不少。　　

红色是SE

　　BN-inception 是一个直线型的网络，没有skip-connection：（想验证是不是只能用在skip-layer中）

　　　　下图：两个小FC中的第一个，下采样的比例选取规则，50层的网路。在1/32的时候，性能仍是有些差别，虽然size小了。

　　　　下图是实际在参加比赛时，imagenet的结果：

　　　　SE-ResNeXt-152 （64 * 4d）作的改进技巧：

　　　　1：把7*7 拆解成3个3*3连续卷积（最先在inception中出现）

　　　　2：loss （label_smoothing）

　　　　3: 在训练的最后几个epoch，把BN fix住了，正常状况BN须要一块儿学习。5-10w次

　　　　由于，BN 只跟batch的数据相关，若是BN和其余W一直变的话很难学到一致的程度，fixBN，就能够保证最后在训练和测试算出的的均值和方差都是一致的。

　　　　Excitation的分布结果：

　　　　取得基本都是每一个stage最后的layer。在浅层网络学到的比较commen，share FM，在深层之后能够学到spacial

　　　　下图有意思的是：

　　　　基本大部分线都是1，都是重合的，激活是饱和状态，个别是0.若是激活全部的值是1的话，其实scale以后没有任何变化，能够认为就是原始的resnet moudle。换句话说：这个SE模块没有起到任何做用，能够摘除掉

　　　　不一样类别的激活基本都是相同的，只是浮值变化，这些浮值能够经过分类器的scale进行调节，上层+这层的SE起的做用不大，由于趋势相同，可能会退化成标准网络

　　　　结果把最后一个SE模块摘掉对总体影响不大。

　　比赛结果：

　　SE网络在Mob和Shufflenet中进行实验：在mobilenet上有3%的提高在shuffle上2%的提高，size 多一点点。

　　场景分类上的结果：

　　　　加了SE以后发现，显著超过以前的结果：

　　FAQ：

　　　　在不把SEfix的状况下有多大的收益？

　　　　只是竞赛的时候作了fix，追求极致的结果/

　　　　每个通道求一个权值，逐通道的乘上去，设计方式在性能和精度trade off

　　　　W*H*C 如何映射到C维向量上？

　　　　map 均值对每一个feature map