CNN——架构上的一些数字

CNN——架构上的一些数字git

前面说了不少关于CNN的数值上的事，下面咱们来看看网络架构。网络架构也是CNN的一个核心部分，因为CNN的特色是它的深度，因此深度模型的网络架构给了人们无数的想象，因而也有了无数的前辈创造了各类各样的模型。咱们今天来看看那些经典的模型，不是从感性的角度上去观看，而是从理性的角度——去尝试计算一些具体的数字，让咱们描绘出这些模型的一个简单轮廓。github

咱们的目标问题是ImageNet分类问题，那么咱们主要关注哪些问题呢？网络

问题总结 架构

模型的深度，模型的核心层（卷积层、全链接层）的数量，这表明了模型的某种“能力”，基本上你们都有一个共识，那忽略优化问题的状况下，就是越深的模型在函数拟合方面效果越好。这里直接利用Caffe计算其中的layers_.size()，因为其中还包括data layer和loss layer，因此统计数会比实际的层数要多。机器学习
每层模型的参数数量，参数的总量，这表明了模型的复杂度。从机器学习的理论上讲，参数越多，模型的表达能力理论上也会“越强”。这里经过Caffe计算全部learnable_params的count总和表示。ide
模型前向的所需的内存量。也就是Caffe中计算的memory_used_变量值。函数

AlexNet学习

本文不是负责介绍历史的，因此不会花什么篇幅去聊故事。模型的prototxt来自：优化

https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/train_val.prototxtgoogle

VGGNet

VGGNet也是一个比较有表明性的网络，关于这个网络的“哲学”咱们后面再开新贴去聊。利用论文和各处获得的信息，咱们能够详细给出VGG19层模型的具体结构，参考的prototxt来自：

https://gist.github.com/ksimonyan/3785162f95cd2d5fee77#file-readme-md

CS231n Convolutional Neural Networks for Visual Recognition对VGG模型的内存占用量和参数数量作过一个计算，仅做参考：

INPUT: [224x224x3] memory: 224*224*3=150K weights: 0

CONV3-64: [224x224x64] memory: 224*224*64=3.2M weights: (3*3*3)*64 = 1,728

CONV3-64: [224x224x64] memory: 224*224*64=3.2M weights: (3*3*64)*64 = 36,864

POOL2: [112x112x64] memory: 112*112*64=800K weights: 0

CONV3-128: [112x112x128] memory: 112*112*128=1.6M weights: (3*3*64)*128 = 73,728

CONV3-128: [112x112x128] memory: 112*112*128=1.6M weights: (3*3*128)*128 = 147,456

POOL2: [56x56x128] memory: 56*56*128=400K weights: 0

CONV3-256: [56x56x256] memory: 56*56*256=800K weights: (3*3*128)*256 = 294,912

CONV3-256: [56x56x256] memory: 56*56*256=800K weights: (3*3*256)*256 = 589,824

POOL2: [28x28x256] memory: 28*28*256=200K weights: 0

CONV3-512: [28x28x512] memory: 28*28*512=400K weights: (3*3*256)*512 = 1,179,648

CONV3-512: [28x28x512] memory: 28*28*512=400K weights: (3*3*512)*512 = 2,359,296

POOL2: [14x14x512] memory: 14*14*512=100K weights: 0

CONV3-512: [14x14x512] memory: 14*14*512=100K weights: (3*3*512)*512 = 2,359,296

POOL2: [7x7x512] memory: 7*7*512=25K weights: 0

FC: [1x1x4096] memory: 4096 weights: 7*7*512*4096 = 102,760,448

FC: [1x1x4096] memory: 4096 weights: 4096*4096 = 16,777,216

FC: [1x1x1000] memory: 1000 weights: 4096*1000 = 4,096,000

TOTAL memory: 24M * 4 bytes ~= 93MB / image (only forward! ~*2 for bwd)

TOTAL params: 138M parameters

可见在计算过程当中偏置项并无被计算在其中。咱们也要作一个详细的计算。

GoogleNet

GoogleNet做为Inception module的表明，一样取得了不错的成绩，咱们的参考prototxt来自：https://github.com/BVLC/caffe/blob/master/models/bvlc_googlenet/train_val.prototxt

ResNet

ResNet做为新一代的模型霸主，其对模型构建的思想可谓又上了一个台阶。这里的ResNet咱们参考的prototxt是

https://github.com/KaimingHe/deep-residual-networks/blob/master/prototxt/ResNet-152-deploy.prototxt

最终结果

下面揭晓最终的实验结果，并附上当年论文中或者网络上给出的单模型的精度。若是数字有错误欢迎指出。

咱们一列一列来看，从模型层数来看，几年间模型的层数已经获得了爆炸式的增加，虽然GoogleNet的Inception Module和ResNet的Residual Module的网络层数都存在水分（GoogleNet官方宣称22层，ResNet官方宣称152层），可是整体上的趋势仍是很明显的，那就是网络结构向着复杂的方向演变，层数也向着变深的方向演变。

对于Memory来讲，除了GoogleNet（GoogleNet通常也是几个模型ensemble一块儿用），其余的模型的体量都比较大，在前向计算时所花费的存储仍是很大的。

模型参数也是比较有意思的地方，实际上VGGNet的参数主要集中在全链接层上，而GoogleNet和ResNet在参数数量上并不算多，由于他们的层数实际上已经比较深，从层数的角度来看，模型的参数密度其实是在减小的。

关于精度……这里就不细说了。

最后补充一句关于VGG的数据，上面的Memory计算的是1个batch所花费的内存，batch_size=256，想要对比上面的公式推演和代码计算的数字，须要把Memory的值除以batch_size。

好了，展现了这么多参数，实际上也是要说明CNN网络发展的趋势，那就是从Shallow and wide的模型转型成deep but thin的模型。模型的复杂程度不断增长，模型的拟合能力不断加强，但参数总量控制得很好，152层的ResNet和5层conv+3层fc的模型参数数量相近，其实这里面也说明了不少问题。

那么这些模型到底是如何演化过来的呢？VGG的“模型哲学”，Inception Module的思想，ResNet对模型结构的颠覆都是如何影响咱们对模型结构的三观呢？

下篇文章将会对此进行解答！