通俗易懂:图解10大CNN网络架构

640?wx_fmt=jpeg


做者 | Raimi Karimhtml

译者 | Majorgit

编辑 | 赵雪程序员

出品 | AI科技大本营(ID: rgznai100)github


导语:近年来,许多卷积神经网络( CNN )跃入眼帘,而随着其愈来愈深的深度,咱们难以对某个 CNN 的结构有较明确的了解。所以本文精心选取了 10 个 CNN 体系结构的详细图解进行讲述。算法


你如何跟踪不一样的 CNN? 最近几年,咱们看到许多 CNN 诞生。这些网络变得很是深,以至对整个模型可视化变得极为困难。咱们把它们看成一些黑盒模型。微信

 

也许你不是这样想的。不过若是你确实遇到这样的问题,本文正是你须要阅读的。这篇文章是对 10 个常见的 CNN 体系结构的图解,由做者精心挑选。这些图解展现了整个模型的精华,无需去逐个浏览那些 Softmax 层。除了这些示意图,做者还提供了一些注释,阐述了它们是如何不断演变的——卷积层从 5 到 50 个、从普通的卷积层到卷积模块、从 2~3 tower 到 32 tower 、卷积核从 7⨉7 到 5⨉5 。网络


所谓“常见”,是指这些模型的预训练权重一般被深度学习库(如 TensorFlow PyTorch )所共享,提供给开发者使用,这些模型一般会在课堂上讲授。其中一些模型已经在竞赛(如 ILSVRC ImageNet 大规模图像识别挑战)中取得了成功。架构

       640?wx_fmt=png

将要讨论的10个架构与相应的论文发布时间app

       640?wx_fmt=png6个网络架构的预训练权重能够在 Keras 中得到,参见https://keras.io/applications/?source=post_pageide

 

写这篇文章的缘由在于没有多少博客和文章提到这些紧凑的结构图解。所以,做者决定本身写一篇做为参考。出于这个目的,做者阅读了本文提到的论文和代码(绝大部分是 TensorFlow 和 Keras ),获得了这些成果。这里还要特别指出,这些 CNN 网络结构的来源五花八门——计算机硬件性能的提升、ImageNet 竞赛、解决特定问题、新想法等等。一位在 Google 工做的研究员 Christian Szegedy 曾经提到:

 

“这个进程绝大多数不仅是因为更强大的硬件、更大的数据集和更大的模型,更是一系列新想法、算法和网络结构的改进”。


如今让咱们来看看这些“巨兽”般的网络架构是如何逐渐演变的。

 

【做者注】对可视化的注释:请注意,在这些示意图中,做者略去了一些信息,如卷积过滤器的数量、Padding、Stride、Dropout 和 flatten 操做。

 

目录(按发表时间排序)


  1. LeNet-5

  2. AlexNet

  3. VGG-16

  4. Inception-v1

  5. Inception-v3

  6. ResNet-50

  7. Xception

  8. Inception-v4

  9. Inception-ResNets

  10. ResNeXt-50

 

图例

     640?wx_fmt=png  

1. LeNet-5 (1998)     


640?wx_fmt=png       图1 : LeNet-5 网络结构


LeNet-5 一个最简单的网络架构。它有 2 个卷积层和 3 个全链接层(总共 5 层,这种命名方式在神经网络中很常见,这个数字表明卷积层和全链接层的总和)。Average-Pooling 层,咱们如今称之为亚采样层,有一些可训练的权重(如今设计 CNN 网络时已经不常见了)。这个网络架构有大约 6 万个参数。

 

有哪些创新?


这个网络架构已经成为标准的“模板”:堆栈式卷积和池化层,以一个或多个全链接层做为网络的末端。

 

相关论著


  • 论文: Gradient-Based Learning Applied to Document Recognition

    连接:http://yann.lecun.com/exdb/publis/index.html?source=post_page

  • 做者:  Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner
  • 发表在:  Proceedings of the IEEE (1998)


2. AlexNet (2012)


640?wx_fmt=png

图2: AlexNet 网络结构

 

AlexNet 有 60 M 个参数,共有 8 层:5 个卷积层和 3 个全链接层。AlexNet 只是在 LeNet-5 中堆叠了更多的层。在该论文发表时,论文做者指出他们的网络架构是“当前最大的 ImageNet 子集卷积神经网络之一”。


有哪些创新?


1. 他们的网络架构是首个采用 ReLU 做为激活函数的 CNN ;

2. 在 CNN 中采用交织池化(Overlapping pooling)。


相关论著


  • 论文: ImageNet Classification with Deep Convolutional Neural Networks连接:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks?source=post_page
  • 做者:  Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton. University of Toronto, Canada.
  • 发表在: NeurIPS 2012


3. VGG-16 (2014)


640?wx_fmt=png

图3: VGG-16 网络结构

 

你应该已经注意到,CNN 开始变得愈来愈深。这是由于提升深度神经网络性能最直接的方法就是增长它们的规模( Szegedy et. al. )。视觉几何研究小组( VCG )的研究人员发明了 VCG-16 ,拥有 13 个卷积层和 3 个全链接层,继承了 AlexNet 的 ReLU 传统。它由 138 M 个变量组成,要占用 500 MB 存储空间。他们也设计了一个更深的版本 VCG-19 。


有哪些创新?


  1. 正如他们在论文摘要中所提到的,该论文的贡献是设计更深的网络(大约是 AlexNet 深度的两倍)。
相关论著
  • 论文: Very Deep Convolutional Networks for Large-Scale Image Recognition连接:https://arxiv.org/abs/1409.1556?source=post_page
  • 做者: Karen Simonyan, Andrew Zisserman. University of Oxford, UK.
  • 发表在 arXiv preprint, 2014


4. Inception-v1 (2014)

      640?wx_fmt=png 图 4: Inception-v1 网络结构. 这个 CNN 有两个辅助网络(在推断时被丢弃),网络结构基于论文中的图3。
这个 22 层的网络架构有 5 M 参数,被称之为 Inception-v1 。在这个架构中,大量应用了 Network in Network 方法(参见附录),实现方法是采用 Inception Module 。模块的架构设计是经过对稀疏结构预估进行研究完成。   每一个模块体现了 3 个思想:
  1. 采用不一样过滤器的并行卷积塔,而后进行堆叠,采用 1×一、3×3 、5×5 卷积核,识别不一样特征,从而对其进行“聚类”。这个想法受到 Arora 等人的论文“ Provable bounds for learning some deep representations ”启发,建议采用逐层构建的方式,这样能够分析最后一层的相关统计,并把它们聚类到高相关的各单元组。
  2. 1×1 卷积核用来进行维度裁减,以免计算瓶颈。
  3. 1×1 卷积核在一个卷积内增长了非线性。
  4. 该论文做者也引入了两个辅助分类器,以在分类器的最后阶段扩大差别,增长了反向传播的网格信号,提供了额外的正则化。辅助网络(与辅助分类分类器相连的分支)在推理时被丢弃。
值得注意的是,"这个网络架构的主要成果是提升网络内部计算资源的利用率"。
做者注: 模块的命名( Stem Inception )在这个版本的 Inception 网络架构中尚未提出,直到后面一些版本即 Inception-v4 Inception-ResNet 中才正式使用。做者把这些加入到这里是为了更容易进行比较。
有哪些创新?
  1. 采用紧密模块/板块构建网络。不采用堆叠卷积层的方法,而是堆叠由卷积层组成模块的方法。Inception 这一名字来自于科幻电影《盗梦空间》

相关论著
  • 论文:  Going Deeper with Convolutions连接:https://arxiv.org/abs/1409.4842?source=post_page
  • 做者:  Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. Google, University of Michigan, University of North Carolina
  • 发表在:  2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)


5. Inception-v3 (2015)

      640?wx_fmt=png 图 5: Inception-v3 网络架构  这个 CNN 有两个辅助网络(在推理时被丢弃)。注: 全部卷积层以后采用 batch norm 和 ReLU 激活   Inception-v3 是 Inception-v1 的后续版本,有 24 M 个参数。Inception-v2 去哪里了?别担忧,它只不过是 v3 的一个早期原型,所以与 v3 十分类似,但不常被使用。该论文做者在提出 Inception-v2 时,在上面作了不少实验,并记录了一些成功经验。Inception 是这些成功经验的结晶(如对优化器、损失函数的改进,在辅助网络中对辅助层增长批量正则等等)。   提出 Inception-v2 和 Inception-v3 的缘由是要避免表示瓶颈(这意味着大幅度地下降了下一层的输入维度),并经过采用分片方法提升了计算效率。
模块的命名( Stem 和 Inception )在这个版本的 Inception 网络架构中尚未提出,直到后面一些版本即 Inception-v4 和 Inception-ResNet 中才正式使用。做者把这些加入到这里是为了更容易进行比较。

有哪些创新?
  1. 首先采用批量正则化(为了简化,上图中未反映这一点)的设计者之一。

与以前的 Inception-v1 版本相比,有哪些改进?
  1. 把 n×n 卷积分解成不对称的卷积n and n×1 卷积。
  2. 把 5×5 卷积分解成 2 个 3×3 卷积操做
  3. 把 7×7 卷积替换成一系列 3×3 卷积。

相关论著
  • 论文: Rethinking the Inception Architecture for Computer Vision连接:https://arxiv.org/abs/1512.00567?source=post_page
  • 做者: Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna. Google, University College London
  • 发表在: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)


6. ResNet-50 (2015)

       640?wx_fmt=png 图 6: ResNet-50 网络架构   对,这就是对文章开头问题的回答。
在上面的几个 CNN 中,咱们只是看到设计时增长了层数,就达到了更好的性能。可是,“网络深度不断增长,精度达到了饱和(这一点并不奇怪),所以网络性能开始快速降低”。微软研究院的专家在构建更深的网络时,采用 ResNet ( 残差网络 ) 解决这个问题,能够再也不采用全链接的方式。   ResNet 是最先采用批量正则化( Ioffe 和 Szegey 在2015提交给 ICML 的批量正则化论文)的网络之一。上图中是 ResNet-50 的网络架构,采用了 26 M 个参数。
ResNet 的基本建构单元是 conv 层和识别板块。由于它们看上去很类似,你能够把 ResNet 简化成下图:         640?wx_fmt=png
有哪些创新?
  1. 大量避免使用全链接(他们不是第一个这么作的)。
  2. 设计更深的 CNN 网络(最大可达 152 层),而没必要损失网络的生成能力。
  3. 首先采用批量正则化的网络架构之一。

相关论著
  • 论文: Deep Residual Learning for Image Recognition连接:https://arxiv.org/abs/1512.03385?source=post_page
  • 做者:  Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Microsoft
  • 发表在:  2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)


7. Xception (2016)

      640?wx_fmt=png 图 7: Xception 网络架构  注:深度可分解卷积用 conv sep 指代   Xception 是 Inception 网络结构的一个应用,其中 Inception 模块被替换成深度可分解卷积。它和 Inception-v1 有大体至关数量的参数(23M)。   Xcpetion 采用了对 eXtreme 的 Inception 假设:
  • 首先,交叉信道(或交叉特征图)相关性能够被 1×1 卷积探测到。
  • 所以,每一个信道的空间相关性能够经过常规的 3×3 或 5×5 卷积探测到。
  把这个思想推到极致,意味着对每一个信道进行 1×1 卷积,对每一个输出进行 3×3 卷积。这等同于将 Inception 模块替换成深度可分解卷积。
有哪些创新?
  1. 彻底基于深度可分解卷积层,引入 CNN。

相关论著
  • 论文: Xception: Deep Learning with Depthwise Separable Convolutions连接:https://arxiv.org/abs/1610.02357?source=post_page
  • 做者: François Chollet. Google.
  • 发表在: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)


8. Inception-v4 (2016)

       640?wx_fmt=png 图 8: Inception-v4 网络架构 这个 CNN 有两个辅助网络(在推理时会被丢弃)。注: 全部卷积层采用 batch norm 和 ReLU 激活。   Google 的研究人员再次提出了 Inception-v4(43M个参数)。这是对 Inception-v3 的一次改进,主要的差异是 Stem 组和对 Inception-C 模块的小改动。该论文的做者也“对每种网格大小的 Inception 板块增长了 Uniform 选择”。他们也提到采用“残差链接能够大幅度提升训练速度”。   总之,值得注意的是,论文提到 Inception-v4 由于模型规模增大效果更好。   与以前的 Inceptio-v3 版本相比,有哪些改进?

  1. 改变了 Stem 模块。
  2. 增长了更多的 Inception 模块。
  3. 采用了 Inception-v3 的 Uniform 选择,意味着在每一个模块中采用了相同数量的过滤器。

相关论著
  • 论文: Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning连接:https://arxiv.org/abs/1602.07261?source=post_page
  • 做者: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi. Google.
  • 发表在:Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence


9. Inception-ResNet-V2 (2016)

       640?wx_fmt=png 图 9:  Inception-ResNet-V2 网络结构。注:全部卷积层采用 batch norm 和 ReLU 激活。   在提出 Inception-v4 的同一篇论文中,做者们也提出了 Inception-ResNet:Inception-ResNet-v1 和 nception-ResNet-v2 网络系列,v2 系列有 56M 个参数。
与以前的 Inception-v3 版本相比,有哪些改进?
  1. 把 Inception 模块转换为残差 Inception 模块。
  2. 增长了更多的 Inception 模块。
  3. 在 Stem 模块后面,增长了一种新型的 Inception 模块(Inception-A)。

相关论著
  • 论文: Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning连接:https://arxiv.org/abs/1602.07261?source=post_page
  • 做者: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi. Google
  • 发表在: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence


10. ResNeXt-50 (2017)

       640?wx_fmt=png 图 10: ResNeXt 网络架构   若是你想起了 ResNet,对,它们是相关的。ResNeXt 有 25 M 个参数(ResNet-50 有 25.5M 个)。它们之间的差异是 ResNeXt 在每一个模块上增长了并行塔/分支、路径。上图总计有 32 个 tower。   有哪些创新?
  1. 在一个模块中增长了并行塔的数量(基数)。

相关论著
  • 论文: Aggregated Residual Transformations for Deep Neural Networks连接:https://arxiv.org/abs/1611.05431?source=post_page
  • 做者: Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He. University of California San Diego, Facebook Research
  • 发表在: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)


附录:Network In Network (2014)

  咱们注意到,在一个卷积中,像素的值是过滤器中权重和当前滑动窗口的线性组合。考虑一个只有 1 个隐藏层的 mini 神经网络。这是他们为何把它叫作  Mlpconv 的缘由。咱们要处理的网络就是一个只有 1 个隐藏层的(卷积神经)网络。   Mlpconv 的思想和 1×1 卷积核密切相关,成为 Inception 网络架构的主要特征。   有哪些创新?
  1. MLP 卷积层, 1×1 卷积。
  2. 全局平均池化(对每一个特征图进行平均,把结果向量反馈到 Softmax 层)。

相关论著
  • 论文: Network In Network连接:https://arxiv.org/abs/1312.4400?source=post_page
  • 做者: Min Lin, Qiang Chen, Shuicheng Yan. National University of Singapore
  • 发表在:arXiv preprint, 2013

下面列出了可让你对神经网络可视化的相关资源:
  • Netron 
  • TensorBoard API by TensorFlow
  • plot_model API by Keras
  • pytorchviz package

 

参考文献
做者在文中使用了提出这些 CNN 网络结构的论文做为参考文献。除了这些论文,做者列出了一些本文中的其它参考文献:
  • https://github.com/tensorflow/models/tree/master/research/slim/nets(github.com/tensorflow)

  • Implementation of deep learning models from the Keras team(github.com/keras-team)

  • Lecture Notes on Convolutional Neural Network Architectures: from LeNet to ResNet (slazebni.cs.illinois.edu)

  • Review: NIN — Network In Network (Image Classification)(towardsdatascience.com)


原文连接: https://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d

(*本文为 AI科技大本营编译文章,转载请联系微信 1092722531)


社群福利

扫码添加小助手,回复:大会,加入2019 AI开发者大会福利群,每周1、3、五更新技术福利,还有不按期的抽奖活动~

640?wx_fmt=jpeg


精彩推荐



640?wx_fmt=jpeg


60+技术大咖与你相约 2019 AI ProCon!大会早鸟票已售罄,优惠票速抢进行中......2019 AI开发者大会将于9月6日-7日在北京举行,这一届AI开发者大会有哪些亮点?一线公司的大牛们都在关注什么?AI行业的风向是什么?2019 AI开发者大会,倾听大牛分享,聚焦技术实践,和万千开发者共成长。


推荐阅读


640?wx_fmt=png 你点的每一个“在看”,我都认真当成了喜欢