深刻学习卷积神经网络（CNN）的原理知识

时间 2020-08-10

标签深刻学习神经网络 cnn 原理知识繁體版

原文原文链接

　　网上关于卷积神经网络的相关知识以及数不胜数，因此本文在学习了前人的博客和知乎，在别人博客的基础上整理的知识点，便于本身理解，之后复习也能够常看看，可是若是侵犯到哪位大神的权利，请联系小编，谢谢。好了下面言归正传：php

　　在深度学习领域中，已经通过验证的成熟算法，目前主要有深度卷积网络（DNN）和递归网络（RNN），在图像识别，视频识别，语音识别领域取得了巨大的成功，正是因为这些成功，能促成了当前深度学习的大热。与此相对应的，在深度学习研究领域，最热门的是AutoEncoder、RBM、DBN等产生式网络架构，可是这些研究领域，虽然论文比较多，可是重量级应用尚未出现，是否能取得成功还具备不肯定性。可是有一些比较初步的迹象代表，这些研究领域仍是很是值得期待的。好比AutoEncoder在图像、视频搜索领域的应用，RBM对非结构化数据的处理方面，DBN网络在结合人工智能领域两大流派链接主义和符号主义，都具备巨大的前景，有理由期待产生重量级成果。咱们在后续会对这些网络逐一进行介绍和实现，除了给出重构后的Theano实现代码外，还会逐步补充这些算法在实际应用的中的实例，咱们会主要将这些算法应用在创业公司数据中，从几万家创业公司及投融资数据中，但愿能挖掘出哪些公司更可能得到投资，特定公司更有可能得到哪家投资机构的投资。css

　　卷积神经网络（CNN），这是深度学习算法应用最成功的领域之一，卷积神经网络包括一维卷积神经网络，二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络主要用于序列类的数据处理，二维卷积神经网络常应用于图像类文本的识别，三维卷积神经网络主要应用于医学图像以及视频类数据识别。html

　　下面个人学习分为四部分，首先利用一个形象的例子说明电脑是如何识别图像的，而后在说明什么是神经网络，什么是卷积神经网络，最后介绍常见的几种卷积神经网络。大致的结构就是这样的。vue

一：如何帮助神经网络识别图像？

　　人类大脑是一很是强大的机器，每秒内能看（捕捉）多张图，并在乎识不到的状况下就完成了对这些图的处理。但机器并不是如此。机器处理图像的第一步是理解，理解如何表达一张图像，进而读取图片。ios

　　简单来讲，每一个图像都是一系列特定排序的图点（像素）。若是你改变像素的顺序或颜色，图像也随之改变。举个例子，存储并读取一张上面写着数字 4 的图像。c++

　　基本上，机器会把图像打碎成像素矩阵，存储每一个表示位置像素的颜色码。在下图的表示中，数值 1 是白色，256 是最深的绿色（为了简化，咱们示例限制到了一种颜色）。git

　　一旦你以这种格式存储完图片信息，下一步就是让神经网络理解这种排序与模式。（表征像素的数值是以特定的方式排序的）es6

　　那么如何帮助神经网络识别图像？web

　　假设咱们尝试使用全链接网络识别图像，应该如何作？算法

　　全链接网络能够经过平化它，把图像看成一个数组，并把像素值看成预测图像中数值的特征。明确地说，让网络理解理解下面图中发生了什么，很是的艰难。

　　即便人类也很难理解上图中表达的含义是数字 4。咱们彻底丢失了像素的空间排列。

咱们能作什么呢？能够尝试从原图中提取特征，从而保留空间排序。

案例一

　　这里咱们使用一个权重乘以初始像素值

　　如今裸眼识别出这是「4」就变得更简单了。但把它交给全链接网络以前，还须要平整化（flatten) 它，要让咱们可以保留图像的空间排列。

案例二

　　如今咱们能够看到，把图像平整化彻底破坏了它的排列。咱们须要想出一种方式在没有平整化的状况下把图片馈送给网络，而且还要保留空间排列特征，也就是须要馈送像素值的 2D/3D 排列。

咱们能够尝试一次采用图像的两个像素值，而非一个。这能给网络很好的洞见，观察邻近像素的特征。既然一次采用两个像素，那也就须要一次采用两个权重值了。

　　但愿你能注意到图像从以前的 4 列数值变成了 3 列。由于咱们如今一次移用两个像素（在每次移动中像素被共享），图像变的更小了。虽然图像变小了，咱们仍能在很大程度上理解这是「4」。并且，要意识到的一个重点是，咱们采用的是两个连贯的水平像素，所以只会考虑水平的排列。

　　这是咱们从图像中提取特征的一种方式。咱们能够看到左边和中间部分，但右边部分看起来不那么清楚。主要是由于两个问题：

　　1. 图片角落左边和右边是权重相乘一次获得的。

　　2. 左边仍旧保留，由于权重值高；右边由于略低的权重，有些丢失。

如今咱们有两个问题，须要两个解决方案。

案例三

　　遇到这样的问题是图像左右两角只被权重经过一次，咱们须要作的是让网络像考虑其余像素同样考虑角落。咱们有一个简单的方法解决这一问题：把零放在权重运动的两边。

　　你能够看到经过添加零，来自角落的信息被再训练。图像也变得更大。这可被用于咱们不想要缩小图像的状况下。

案例四

　　这里咱们试图解决的问题是右侧角落更小的权重值正在下降像素值，所以使其难以被咱们识别。咱们所能作的是采起多个权重值并将其结合起来。

　　(1,0.3) 的权重值给了咱们一个输出表格

　　同时表格 (0.1,5) 的权重值也将给咱们一个输出表格。

　　两张图像的结合版本将会给咱们一个清晰的图片。所以，咱们所作的是简单地使用多个权重而不是一个，从而再训练图像的更多信息。最终结果将是上述两张图像的一个结合版本。

案例五

　　咱们到如今经过使用权重，试图把水平像素（horizontal pixel）结合起来。可是大多数状况下咱们须要在水平和垂直方向上保持空间布局。咱们采起 2D 矩阵权重，把像素在水平和垂直方向上结合起来。一样，记住已经有了水平和垂直方向的权重运动，输出会在水平和垂直方向上低一个像素。

因此咱们作了什么？

　　上面咱们所作的事是试图经过使用图像的空间的安排从图像中提取特征。为了理解图像，理解像素如何安排对于一个网络极其重要。上面咱们所作的也偏偏是一个卷积网络所作的。咱们能够采用输入图像，定义权重矩阵，而且输入被卷积以从图像中提取特殊特征而无需损失其有关空间安排的信息。

　　这个方法的另外一个重大好处是它能够减小图像的参数数量。正如所见，卷积图像相比于原始图像有更少的像素。

2 ：什么是神经网络？

　　这里的神经网络，也指人工神经网络（Artificial Neural Networks，简称ANNs），是一种模仿生物神经网络行为特征的算法数学模型，由神经元、节点与节点之间的链接（突触）所构成，以下图：

　　每一个神经网络单元抽象出来的数学模型以下，也叫感知器，它接收多个输入（x1，x2，x3...），产生一个输出，这就比如是神经末梢感觉各类外部环境的变化（外部刺激），而后产生电信号，以便于转导到神经细胞（又叫神经元）。

　　单个的感知器就构成了一个简单的模型，但在现实世界中，实际的决策模型则要复杂得多，每每是由多个感知器组成的多层网络，以下图所示，这也是经典的神经网络模型，由输入层、隐含层、输出层构成。

　　人工神经网络能够映射任意复杂的非线性关系，具备很强的鲁棒性、记忆能力、自学习等能力，在分类、预测、模式识别等方面有着普遍的应用。

3 ：什么是卷积神经网络？

　　卷积神经网络是近年发展起来的，并引发普遍重视的一种高效识别方法，20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构能够有效地下降反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional Neural Networks-简称CNN）。如今，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，因为该网络避免了对图像的复杂前期预处理，能够直接输入原始图像，于是获得了更为普遍的应用。 K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工做者对该网络进行了改进。其中，具备表明性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各类改进方法的优势并避免了耗时的偏差反向传播。

　　这听起来像是一个奇怪的生物学和数学的结合，可是这些网络已经成为计算机视觉领域最具影响力的创新之一。2012年是神经网络成长的第一年，Alex Krizhevsky用它们赢得了当年的ImageNet竞赛（基本上是计算机视觉年度奥运会），把分类错误记录从26％降到了15％，这个惊人的提升从那之后，许多公司一直在以服务为核心进行深度学习。Facebook使用自动标记算法的神经网络，谷歌的照片搜索，亚马逊的产品推荐，Pinterest的家庭饲料个性化和Instagram的搜索基础设施。

　　通常的，CNN的基本结构包括两层，其一为特征提取层，每一个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之肯定下来；其二是特征映射层，网络的每一个计算层由多个特征映射组成，每一个特征映射是一个平面，平面上全部神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数做为卷积网络的激活函数，使得特征映射具备位移不变性。此外，因为一个映射面上的神经元共享权值，于是减小了网络自由参数的个数。卷积神经网络中的每个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减少了特征分辨率。

　　CNN主要用来识别位移、缩放及其余形式扭曲不变性的二维图形，该部分功能主要由池化层实现。因为CNN的特征检测层经过训练数据进行学习，因此在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者因为同一特征映射面上的神经元权值相同，因此网络能够并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优点。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享下降了网络的复杂性，特别是多维输入向量的图像能够直接输入网络这一特色避免了特征提取和分类过程当中数据重建的复杂度。

　　说了这么多，接下来将以图像识别为例子，来介绍卷积神经网络的原理。

3.1 案例

　　假设给定一张图（多是字母X或者字母O），经过CNN便可识别出是X仍是O，以下图所示，那怎么作到的呢

3.2 图像输入

　　若是采用经典的神经网络模型，则须要读取整幅图像做为神经网络模型的输入（即全链接的方式），当图像的尺寸越大时，其链接的参数将变得不少，从而致使计算量很是大。
　　而咱们人类对外界的认知通常是从局部到全局，先对局部有感知的认识，再逐步对全体有认知，这是人类的认识模式。在图像中的空间联系也是相似，局部范围内的像素之间联系较为紧密，而距离较远的像素则相关性较弱。于是，每一个神经元其实没有必要对全局图像进行感知，只须要对局部进行感知，而后在更高层将局部的信息综合起来就获得了全局的信息。这种模式就是卷积神经网络中下降参数数目的重要神器：局部感觉野。

3.3 提取特征

　　若是字母X、字母O是固定不变的，那么最简单的方式就是图像之间的像素一一比对就行，但在现实生活中，字体都有着各个形态上的变化（例如手写文字识别），例如平移、缩放、旋转、微变形等等，以下图所示：

　　咱们的目标是对于各类形态变化的X和O，都能经过CNN准确地识别出来，这就涉及到应该如何有效地提取特征，做为识别的关键因子。
　　回想前面讲到的“局部感觉野”模式，对于CNN来讲，它是一小块一小块地来进行比对，在两幅图像中大体相同的位置找到一些粗糙的特征（小块图像）进行匹配，相比起传统的整幅图逐一比对的方式，CNN的这种小块匹配方式可以更好的比较两幅图像之间的类似性。以下图：

　　以字母X为例，能够提取出三个重要特征（两个交叉线、一个对角线），以下图所示：

　　假如以像素值"1"表明白色，像素值"-1"表明黑色，则字母X的三个重要特征以下：

　　那么这些特征又是怎么进行匹配计算呢？

3.4 卷积（convolution）

　　这时就要请出今天的重要嘉宾：卷积。那什么是卷积呢，不急，下面慢慢道来。
当给定一张新图时，CNN并不能准确地知道这些特征到底要匹配原图的哪些部分，因此它会在原图中把每个可能的位置都进行尝试，至关于把这个feature（特征）变成了一个过滤器。这个用来匹配的过程就被称为卷积操做，这也是卷积神经网络名字的由来。
　　卷积的操做以下图所示：

　　是否是很像把毛巾沿着对角卷起来，下图形象地说明了为何叫「卷」积

　　在本案例中，要计算一个feature（特征）和其在原图上对应的某一小块的结果，只需将两个小块内对应位置的像素值进行乘法运算，而后将整个小块内乘法运算的结果累加起来，最后再除以小块内像素点总个数便可（注：也可不除以总个数的）。
　　若是两个像素点都是白色（值均为1），那么1*1 = 1，若是均为黑色，那么(-1)*(-1) = 1，也就是说，每一对可以匹配上的像素，其相乘结果为1。相似地，任何不匹配的像素相乘结果为-1。具体过程以下（第一个、第二个……、最后一个像素的匹配结果）：

　　根据卷积的计算方式，第一块特征匹配后的卷积计算以下，结果为1

　　对于其它位置的匹配，也是相似（例如中间部分的匹配）

　　计算以后的卷积以下

　　以此类推，对三个特征图像不断地重复着上述过程，经过每个feature（特征）的卷积操做，会获得一个新的二维数组，称之为feature map。其中的值，越接近1表示对应位置和feature的匹配越完整，越是接近-1，表示对应位置和feature的反面匹配越完整，而值接近0的表示对应位置没有任何匹配或者说没有什么关联。以下图所示：

　　能够看出，当图像尺寸增大时，其内部的加法、乘法和除法操做的次数会增长得很快，每个filter的大小和filter的数目呈线性增加。因为有这么多因素的影响，很容易使得计算量变得至关庞大。

3.5 池化（Pooling）

　　为了有效地减小计算量，CNN使用的另外一个有效的工具被称为“池化(Pooling)”。池化就是将输入图像进行缩小，减小像素信息，只保留重要信息。
　　池化的操做也很简单，一般状况下，池化区域是2*2大小，而后按必定规则转换成相应的值，例如取这个池化区域内的最大值（max-pooling）、平均值（mean-pooling）等，以这个值做为结果的像素值。
　　下图显示了左上角2*2池化区域的max-pooling结果，取该区域的最大值max(0.77,-0.11,-0.11,1.00)，做为池化后的结果，以下图：

　　池化区域往左，第二小块取大值max(0.11,0.33,-0.11,0.33)，做为池化后的结果，以下图：

　　其它区域也是相似，取区域内的最大值做为池化后的结果，最后通过池化后，结果以下：

　　对全部的feature map执行一样的操做，结果以下：

　　最大池化（max-pooling）保留了每一小块内的最大值，也就是至关于保留了这一块最佳的匹配结果（由于值越接近1表示匹配越好）。也就是说，它不会具体关注窗口内究竟是哪个地方匹配了，而只关注是否是有某个地方匹配上了。
　　经过加入池化层，图像缩小了，能很大程度上减小计算量，下降机器负载。

3.6 激活函数RelU (Rectified Linear Units)

　　经常使用的激活函数有sigmoid、tanh、relu等等，前二者sigmoid/tanh比较常见于全链接层，后者ReLU常见于卷积层。
　　回顾一下前面讲的感知机，感知机在接收到各个输入，而后进行求和，再通过激活函数后输出。激活函数的做用是用来加入非线性因素，把卷积层输出结果作非线性映射。

　　在卷积神经网络中，激活函数通常使用ReLU(The Rectified Linear Unit，修正线性单元)，它的特色是收敛快，求梯度简单。计算公式也很简单，max(0,T)，即对于输入的负值，输出全为0，对于正值，则原样输出。
　　下面看一下本案例的ReLU激活函数操做过程：
　　第一个值，取max(0,0.77)，结果为0.77，以下图

　　第二个值，取max(0,-0.11)，结果为0，以下图

　　以此类推，通过ReLU激活函数后，结果以下：

　　对全部的feature map执行ReLU激活函数操做，结果以下：

3.7 深度神经网络

　　经过将上面所提到的卷积、激活函数、池化组合在一块儿，就变成下图：

　　经过加大网络的深度，增长更多的层，就获得了深度神经网络，以下图：

3.8 全链接层(Fully connected layers)

　　全链接层在整个卷积神经网络中起到“分类器”的做用，即经过卷积、激活函数、池化等深度网络后，再通过全链接层对结果进行识别分类。
　　首先将通过卷积、激活函数、池化的深度网络后的结果串起来，以下图所示：

　　因为神经网络是属于监督学习，在模型训练时，根据训练样本对模型进行训练，从而获得全链接层的权重（如预测字母X的全部链接的权重）

　　在利用该模型进行结果识别时，根据刚才提到的模型训练得出来的权重，以及通过前面的卷积、激活函数、池化等深度网络计算出来的结果，进行加权求和，获得各个结果的预测值，而后取值最大的做为识别的结果（以下图，最后计算出来字母X的识别值为0.92，字母O的识别值为0.51，则结果断定为X）

　　上述这个过程定义的操做为”全链接层“(Fully connected layers)，全链接层也能够有多个，以下图：

3.9 卷积神经网络（Convolutional Neural Networks）

　　将以上全部结果串起来后，就造成了一个“卷积神经网络”（CNN）结构，以下图所示：

　　最后，再回顾总结一下，卷积神经网络主要由两部分组成，一部分是特征提取（卷积、激活函数、池化），另外一部分是分类识别（全链接层），下图即是著名的手写文字识别卷积神经网络结构图：

3.10 对卷积神经网络的总结

　　卷积网络在本质上是一种输入到输出的映射，它可以学习大量的输入与输出之间的映射关系，而不须要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，网络就具备输入输出对之间的映射能力。

　　CNN一个很是重要的特色就是头重脚轻（越往输入权值越小，越往输出权值越多），呈现出一个倒三角的形态，这就很好地避免了BP神经网络中反向传播的时候梯度损失得太快。

　　卷积神经网络CNN主要用来识别位移、缩放及其余形式扭曲不变性的二维图形。因为CNN的特征检测层经过训练数据进行学习，因此在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者因为同一特征映射面上的神经元权值相同，因此网络能够并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优点。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享下降了网络的复杂性，特别是多维输入向量的图像能够直接输入网络这一特色避免了特征提取和分类过程当中数据重建的复杂度。

四：常见的几种卷积神经网络介绍

　　目前图像分类中的ResNet, 目标检测领域占统治地位的Faster R-CNN，分割中最牛的Mask-RCNN, UNet和经典的FCN都是如下面几种常见网络为基础。

一：LeNet

1.1 网络背景

　　LeNet诞生于1994年，由深度学习三巨头之一的Yan LeCun提出，他也被称为卷积神经网络之父。LeNet主要用来进行手写字符的识别与分类，准确率达到了98%，并在美国的银行中投入了使用，被用于读取北美约10%的支票。LeNet奠基了现代卷积神经网络的基础。

1.2 网络结构

　　上图为LeNet结构图，是一个6层网络结构：三个卷积层，两个下采样层和一个全链接层（图中C表明卷积层，S表明下采样层，F表明全链接层）。其中，C5层也能够当作是一个全链接层，由于C5层的卷积核大小和输入图像的大小一致，都是5*5（可参考LeNet详细介绍）。

1.3 网络特色

每一个卷积层包括三部分：卷积、池化和非线性激活函数（sigmoid激活函数）
使用卷积提取空间特征
降采样层采用平均池化