深度学习方法(十一):卷积神经网络结构变化——Google Inception V1-V4,Xception(depthwise convolution)

欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld
技术交流QQ群:433250724,欢迎对算法、机器学习技术感兴趣的同窗加入。算法


上一篇讲了深度学习方法(十):卷积神经网络结构变化——Maxout Networks,Network In Network,Global Average Pooling,本篇讲一讲Google的Inception系列net,以及仍是Google的Xception。(扯一下,Google的Researcher们仍是给了不少很棒的idea的,但愿读者朋友和我本身在了解paper之余,能够提出本身的想法,并实现。)markdown

若是想看Xception,就直接拉到最后看,有手画示意图。网络

Inception V1-V4

Inception V1

V1是你们口头说的Googlenet,在以前的深度学习方法(五):卷积神经网络CNN经典模型整理Lenet,Alexnet,Googlenet,VGG,Deep Residual Learning有简单介绍,这里再凝练一下创新点:机器学习

这里写图片描述
图1ide

要想提升CNN的网络能力,好比分类准确率,通常的想法就是增大网络,好比Alexnet确实比之前早期Lenet大了不少,可是纯粹的增大网络——好比把每一层的channel数量翻倍——可是这样作有两个缺点——参数太多容易过拟合,网络计算量也会愈来愈大。性能

如下重点:目前不少工做证实,要想加强网络能力,能够:增长网络深度,增长网络宽度;可是为了减小过拟合,也要减小自由参数。所以,就天然而然有了这个初版的Inception网络结构——同一层里面,有卷积1* 1, 3* 3,5* 5 不一样的卷积模板,他们能够在不一样size的感觉野作特征提取,也算的上是一种混合模型了。由于Max Pooling自己也有特征提取的做用,并且和卷积不一样,没有参数不会过拟合,也做为一个分支。可是直接这样作,整个网络计算量会较大,且层次并无变深,所以,在3*3和5*5卷积前面先作1*1的卷积,下降input的channel数量,这样既使得网络变深,同时计算量反而小了;(在每个卷积以后都有ReLU)学习

Inception V2-V3

V2和V3版本比较接近,就不绝对区分了,具体能够看[3]。讲一讲其中的创新点:优化

首先,用两层堆叠的3*3代替了一层5*5,咱们能够看到,这样作参数量少了,计算量少了,可是层数变深了,效果也变好了:idea

这里写图片描述

用1*3和3*1卷积替代3*3卷积,计算量少了不少,深度变深,思路是同样的。(其实是1*n和n*1替代n*n,n能够变)spa

这里写图片描述

放到Inception结构里,下面是原始的Inception

这里写图片描述

下面图5-6-7是改进版本:

这里写图片描述

这里写图片描述

这里写图片描述

整体的网络结构:

这里写图片描述

咱们看到,Inception并非全程都用,是在图像比较小了采用,而且,图5-6-7的结构是依次用的,他们适合不一样size的图像。

Inception V4

v4研究了Inception模块结合Residual Connection能不能有改进?发现ResNet的结构能够极大地加速训练,同时性能也有提高,获得一个Inception-ResNet v2网络,同时还设计了一个更深更优化的Inception v4模型,能达到与Inception-ResNet v2相媲美的性能 [7]

Inception-resnet-v1 and Inception-ResNet v2都是用的这个结构图,区别在于下图的注释中,

这里写图片描述

这篇文章通篇就是各类微结构变化,我在这里贴也没什么意思,但愿读者移步论文[4],找到对应的图号,看一下。

这里写图片描述

这里写图片描述

其实我也有疑惑,虽然paper总能够说出一些道道,结果也确实有必定提高,可是对于不一样层设计了彻底不一样的微结构,这样会不会模式上太不统一了?有没有用更简洁统一的方式,达到同样的效果呢?我相信是有的,自我感受Inception V1的模式很简单,Resnet的跳层结构也很简单,美,可是到了V4这里,结构变化太多,很难理解为何是必须的呢?**

就比如咱们之前作电影推荐比赛,最终获胜的结果每每是多模型混合,可是我我的仍是最感兴趣那个最最有效果的单模型是什么样的。

Xception

很是新的一个工做[5],前面讲了那么多Inception网络,那么Inception网络的极限是什么呢?其中一个极限版本以下:

这里写图片描述

在1*1卷积以后,对每个channel,作3*3的*1的独立卷积,而后再concat。认为每个spatial conv对cross channel feature是没有关系的。

[5]做者提出了Depthwise Separable Convolution,或者简称Depthwise Convolution,是下面这个样子:先作channel-wise conv,而后再过1*1卷积,中间没有ReLU,最后有ReLU。

这里写图片描述

上面提到两种结构的区别,文中这一段写的很清楚:

这里写图片描述

整个网络结构:

这里写图片描述


OK,本篇到这里,只是做为一个记录和引导,让你们发现更多结构设计的idea。


参考资料

下面参考资料部分paper还带了test error
[1] Going Deeper with Convolutions, 6.67% test error
http://arxiv.org/abs/1409.4842
[2] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, 4.8% test error
http://arxiv.org/abs/1502.03167
[3] Rethinking the Inception Architecture for Computer Vision, 3.5% test error
http://arxiv.org/abs/1512.00567
[4] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, 3.08% test error
[5] Xception: Deep Learning with Depthwise Separable Convolutions
[6] 深刻浅出——网络模型中Inceptionv1到 v4 的做用与结构全解析
[7] Inception in CNN
[8] 论文笔记 | Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

相关文章
相关标签/搜索