深度学习方法（十一）：卷积神经网络结构变化——Google Inception V1-V4，Xception（depthwise convolution）

时间 2019-12-05

标签深度学习方法十一神经网络结构变化 google inception v1 v4 xception depthwise convolution 栏目 Google 繁體版

原文原文链接

欢迎转载，转载请注明：本文出自Bin的专栏blog.csdn.net/xbinworld。
技术交流QQ群：433250724，欢迎对算法、机器学习技术感兴趣的同窗加入。算法

上一篇讲了深度学习方法（十）：卷积神经网络结构变化——Maxout Networks，Network In Network，Global Average Pooling，本篇讲一讲Google的Inception系列net，以及仍是Google的Xception。（扯一下，Google的Researcher们仍是给了不少很棒的idea的，但愿读者朋友和我本身在了解paper之余，能够提出本身的想法，并实现。）markdown

若是想看Xception，就直接拉到最后看，有手画示意图。网络

Inception V1-V4

Inception V1：

V1是你们口头说的Googlenet，在以前的深度学习方法（五）：卷积神经网络CNN经典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning有简单介绍，这里再凝练一下创新点：机器学习

图1ide

要想提升CNN的网络能力，好比分类准确率，通常的想法就是增大网络，好比Alexnet确实比之前早期Lenet大了不少，可是纯粹的增大网络——好比把每一层的channel数量翻倍——可是这样作有两个缺点——参数太多容易过拟合，网络计算量也会愈来愈大。性能

如下重点：目前不少工做证实，要想加强网络能力，能够：增长网络深度，增长网络宽度；可是为了减小过拟合，也要减小自由参数。所以，就天然而然有了这个初版的Inception网络结构——同一层里面，有卷积1* 1, 3* 3,5* 5 不一样的卷积模板，他们能够在不一样size的感觉野作特征提取，也算的上是一种混合模型了。由于Max Pooling自己也有特征提取的做用，并且和卷积不一样，没有参数不会过拟合，也做为一个分支。可是直接这样作，整个网络计算量会较大，且层次并无变深，所以，在3*3和5*5卷积前面先作1*1的卷积，下降input的channel数量，这样既使得网络变深，同时计算量反而小了；（在每个卷积以后都有ReLU）学习

Inception V2-V3：

V2和V3版本比较接近，就不绝对区分了，具体能够看[3]。讲一讲其中的创新点：优化

首先，用两层堆叠的3*3代替了一层5*5，咱们能够看到，这样作参数量少了，计算量少了，可是层数变深了，效果也变好了：idea

用1*3和3*1卷积替代3*3卷积，计算量少了不少，深度变深，思路是同样的。（其实是1*n和n*1替代n*n，n能够变）spa

放到Inception结构里，下面是原始的Inception

下面图5-6-7是改进版本：

整体的网络结构：

咱们看到，Inception并非全程都用，是在图像比较小了采用，而且，图5-6-7的结构是依次用的，他们适合不一样size的图像。

Inception V4：

v4研究了Inception模块结合Residual Connection能不能有改进？发现ResNet的结构能够极大地加速训练，同时性能也有提高，获得一个Inception-ResNet v2网络，同时还设计了一个更深更优化的Inception v4模型，能达到与Inception-ResNet v2相媲美的性能 [7]

Inception-resnet-v1 and Inception-ResNet v2都是用的这个结构图，区别在于下图的注释中，

这篇文章通篇就是各类微结构变化，我在这里贴也没什么意思，但愿读者移步论文[4]，找到对应的图号，看一下。

其实我也有疑惑，虽然paper总能够说出一些道道，结果也确实有必定提高，可是对于不一样层设计了彻底不一样的微结构，这样会不会模式上太不统一了？有没有用更简洁统一的方式，达到同样的效果呢？我相信是有的，自我感受Inception V1的模式很简单，Resnet的跳层结构也很简单，美，可是到了V4这里，结构变化太多，很难理解为何是必须的呢？**

就比如咱们之前作电影推荐比赛，最终获胜的结果每每是多模型混合，可是我我的仍是最感兴趣那个最最有效果的单模型是什么样的。

Xception

很是新的一个工做[5]，前面讲了那么多Inception网络，那么Inception网络的极限是什么呢？其中一个极限版本以下：

在1*1卷积以后，对每个channel，作3*3的*1的独立卷积，而后再concat。认为每个spatial conv对cross channel feature是没有关系的。

[5]做者提出了Depthwise Separable Convolution，或者简称Depthwise Convolution，是下面这个样子：先作channel-wise conv，而后再过1*1卷积，中间没有ReLU，最后有ReLU。

上面提到两种结构的区别，文中这一段写的很清楚：

整个网络结构：

OK，本篇到这里，只是做为一个记录和引导，让你们发现更多结构设计的idea。

参考资料

下面参考资料部分paper还带了test error
[1] Going Deeper with Convolutions, 6.67% test error
http://arxiv.org/abs/1409.4842
[2] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, 4.8% test error
http://arxiv.org/abs/1502.03167
[3] Rethinking the Inception Architecture for Computer Vision, 3.5% test error
http://arxiv.org/abs/1512.00567
[4] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, 3.08% test error
[5] Xception: Deep Learning with Depthwise Separable Convolutions
[6] 深刻浅出——网络模型中Inceptionv1到 v4 的做用与结构全解析
[7] Inception in CNN
[8] 论文笔记 | Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning