卷积神经网络CNN

1、简介

  卷积神经网络是近年发展起来的,并引发普遍重视的一种高效识别方法,20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构能够有效地下降反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。如今,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,因为该网络避免了对图像的复杂前期预处理,能够直接输入原始图像,于是获得了更为普遍的应用。 K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后,更多的科研工做者对该网络进行了改进。其中,具备表明性的研究成果是Alexander和Taylor提出的“改进认知机”,该方法综合了各类改进方法的优势并避免了耗时的偏差反向传播。html

  通常的,CNN的基本结构包括两层,其一为特征提取层,每一个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之肯定下来;其二是特征映射层,网络的每一个计算层由多个特征映射组成,每一个特征映射是一个平面,平面上全部神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数做为卷积网络的激活函数,使得特征映射具备位移不变性。此外,因为一个映射面上的神经元共享权值,于是减小了网络自由参数的个数。卷积神经网络中的每个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减少了特征分辨率。算法

  CNN主要用来识别位移、缩放及其余形式扭曲不变性的二维图形,该部分功能主要由池化层实现。因为CNN的特征检测层经过训练数据进行学习,因此在使用CNN时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;再者因为同一特征映射面上的神经元权值相同,因此网络能够并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优点。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享下降了网络的复杂性,特别是多维输入向量的图像能够直接输入网络这一特色避免了特征提取和分类过程当中数据重建的复杂度。网络

 

2、CNN卷积神经网络

  一、CNN的主要概述

  卷积层的神经元只与前一层的部分神经元节点相连,即它的神经元间的链接是非全链接的,且同一层中某些神经元之间的链接的权重w和偏置b是共享的(即相同的)大量地减小了须要训练参数的数量。ide

  CNN主要特色:减小权值,局部链接,权值共享函数

  CNN经过感觉野和权值共享减小了神经网络须要训练的参数的个数。布局

  二、CNN的通常结构

  • 输入层:用于数据的输入
  • 卷积层:使用卷积核进行特征提取和特征映射
  • 激励层:因为卷积也是一种线性运算,所以须要增长非线性映射
  • 池化层:压缩数据和参数的量,减少过拟合。
  • 全链接层:一般在CNN的尾部进行从新拟合,减小特征信息的损失
  • 输出层:用于输出结果

  (1)数据输入层性能

  该层要作的处理主要是对原始图像数据进行预处理,其中包括:学习

  • 去均值:把输入数据各个维度都中心化为0,以下图所示,其目的就是把样本的中心拉回到坐标系原点上。
  • 归一化:幅度归一化到一样的范围,以下所示,即减小各维度数据取值范围的差别而带来的干扰,好比,咱们有两个维度的特征A和B,A范围是0到10,而B范围是0到10000,若是直接使用这两个特征是有问题的,好的作法就是归一化,即A和B的数据都变为0到1的范围。
  • PCA/白化:用PCA降维;白化是对数据各个特征轴上的幅度归一化

  去均值与归一化效果图:优化

 

去相关与白化效果图:spa



  (2)卷积计算层

这一层就是卷积神经网络最重要的一个层次,也是“卷积神经网络”的名字来源。
在这个卷积层,有两个关键操做:

  • 局部关联。每一个神经元看作一个滤波器(filter)
  • 窗口(receptive field)滑动, filter对局部数据计算

  (2.1)名词和概念

  先介绍卷积层的几个名词和概念:

  • 感觉视野( local receptive fields)

    即感觉上一层的部分特征。在卷积神经网络中,隐藏层中的神经元的感觉视野比较小,只能看到上一次的部分特征,上一层的其余特征能够经过平移感觉视野来获得同一层的其余神经元。

  • 卷积核

    感觉视野中的权重矩阵。

  • 共享权值(shared weights) 

  详见(2.3)参数共享机制解释。

  • 深度/depth(解释见下图)
 
  • 步长(stride)

    感觉视野对输入的扫描间隔称为步长(stride),即窗口一次滑动的长度

  • 边界扩充(pad)

     当步长比较大时(stride>1),为了扫描到边缘的一些特征,感觉视野可能会“出界”,这时须要对边界扩充(pad)。如下图为例子,好比有这么一个5 * 5的图片(一个格子一个像素),咱们滑动窗口取2*2,步长取2,那么咱们发现还剩下1个像素无法滑完,那怎么办呢? 

 

那咱们在原先的矩阵加了一层填充值,使得变成6*6的矩阵,那么窗口就能够恰好把全部像素遍历完。这就是填充值(边界扩充)的做用。 

  • 特征映射图(feature map)

     经过一个带有卷积核的感觉视野 扫描生成的下一层神经元矩阵 称为一个特征映射图(feature map)

  (2.2)卷积的计算

接下来说卷积的计算(注意,下面蓝色矩阵周围有一圈灰色的框,那些就是上面所说到的填充值)

 
 

  这里的蓝色矩阵就是输入的图像,粉色矩阵就是卷积层的神经元,这里表示了有两个神经元(w0,w1)。绿色矩阵就是通过卷积运算后的输出矩阵,这里的步长设置为2。
 
 

 

  蓝色的矩阵(输入图像)对粉色的矩阵(filter)进行矩阵内积计算并将三个内积运算的结果与偏置值b相加(好比上面图的计算:2+(-2+1-2)+(1-2-2) + 1= 2 - 3 - 3 + 1 = -3),计算后的值就是绿框矩阵的一个元素。


 
 

  下面的动态图形象地展现了卷积层的计算过程:


 
 

  (2.3)参数共享机制解释

  • 在卷积层中每一个神经元链接数据窗的权重是固定的,每一个神经元只关注一个特性。神经元就是图像处理中的滤波器,好比边缘检测专用的Sobel滤波器,即卷积层的每一个滤波器都会有本身所关注一个图像特征,好比垂直边缘,水平边缘,颜色,纹理等等,这些全部神经元加起来就比如就是整张图像的特征提取器集合。
  • 须要估算的权重个数减小: AlexNet 1亿 => 3.5w
  • 一组固定的权重和不一样窗口内数据作内积: 卷积

  (3)激励层

  激励层主要对卷积层的输出进行一个非线性映射,由于卷积层的计算仍是一种线性计算。使用的激励函数通常为ReLu函数。

  卷积层和激励层一般合并在一块儿称为“卷积层”。

 

  CNN采用的激励函数通常为ReLU(The Rectified Linear Unit/修正线性单元),它的特色是收敛快,求梯度简单,但较脆弱,图像以下。


 
 


  (4)池化层

  池化层夹在连续的卷积层中间, 用于压缩数据和参数的量,减少过拟合。当输入通过卷积层时,若感觉视野比较小,布长stride比较小,获得的feature map(特征映射图)仍是比较大,能够经过池化层来对每个feature map进行降维操做,输出的深度仍是不变的,依然为feature map的个数。

  这里再展开叙述池化层的具体做用:

  1)特征不变性,也就是咱们在图像处理中常常提到的特征的尺度不变性,池化操做就是图像的resize,平时一张狗的图像被缩小了一倍咱们还能认出这是一张狗的照片,这说明这张图像中仍保留着狗最重要的特征,咱们一看就能判断图像中画的是一只狗,图像压缩时去掉的信息只是一些可有可无的信息,而留下的信息则是具备尺度不变性的特征,是最能表达图像的特征。

  2)特征降维,咱们知道一幅图像含有的信息是很大的,特征也不少,可是有些信息对于咱们作图像任务时没有太多用途或者有重复,咱们能够把这类冗余信息去除,把最重要的特征抽取出来,这也是池化操做的一大做用。

  3)在必定程度上防止过拟合,更方便优化。

 
 

池化层也有一个“池化视野(filter)”来对feature map矩阵进行扫描,对“池化视野”中的矩阵值进行计算,通常有两种计算方式:

   (1)Max pooling:取“池化视野”矩阵中的最大值

   (2)Average pooling:取“池化视野”矩阵中的平均值

  (5)全链接层和输出层

全链接层主要对特征进行从新拟合,减小特征信息的丢失。输出层主要准备作好最后目标结果的输出。

两层之间全部神经元都有权重链接,一般全链接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的链接方式是同样的:

 

 

 

3、卷积神经网络 VS. 传统神经网络

  其实如今回过头来看,CNN跟咱们以前学习的神经网络,也没有很大的差异。传统的神经网络,其实就是多个FC层叠加起来。CNN,无非就是把FC改为了CONV和POOL,就是把传统的由一个个神经元组成的layer,变成了由filters组成的layer。那么,为何要这样变?有什么好处?具体说来有两点:

  1.参数共享机制(parameters sharing)
  咱们对比一下传统神经网络的层和由filters构成的CONV层:
  假设咱们的图像是8×8大小,也就是64个像素,假设咱们用一个有9个单元的全链接层:

 
使用全链接

  那这一层咱们须要多少个参数呢?须要 64×9 = 576个参数(先不考虑偏置项b)。由于每个连接都须要一个权重w。

  那咱们看看 一样有9个单元的filter是怎么样的:

 
使用filter

  其实不用看就知道,有几个单元就几个参数,因此总共就9个参数

  由于,对于不一样的区域,咱们都共享同一个filter,所以就共享这同一组参数。
这也是有道理的,经过前面的讲解咱们知道,filter是用来检测特征的,那一个特征通常状况下极可能在不止一个地方出现,好比“竖直边界”,就可能在一幅图中多出出现,那么 咱们共享同一个filter不只是合理的,并且是应该这么作的。

  因而可知,参数共享机制,让咱们的网络的参数数量大大地减小。这样,咱们能够用较少的参数,训练出更加好的模型,典型的事半功倍,并且能够有效地 避免过拟合
  一样,因为filter的参数共享,即便图片进行了必定的平移操做,咱们照样能够识别出特征,这叫作 “平移不变性”。所以,模型就更加稳健了。

  2.链接的稀疏性(sparsity of connections)
  由卷积的操做可知,输出图像中的任何一个单元,只跟输入图像的一部分有关系:

 
只跟输入的一部分有关

  而传统神经网络中,因为都是全链接,因此输出的任何一个单元,都要受输入的全部的单元的影响。这样无形中会对图像的识别效果大打折扣。比较,每个区域都有本身的专属特征,咱们不但愿它受到其余区域的影响。

正是因为上面这两大优点,使得CNN超越了传统的NN,开启了神经网络的新时代。

 

4、CNN的有点和缺点

  优势:

    一、共享卷积核,对高维数据处理无压力

    二、能够自动进行特征提取:卷积层能够提取特征, 卷积层中的卷积核(滤波器)真正发挥做用,经过卷积提取须要的特征。 

  缺点:

    一、须要调参,须要大样本量,训练最好要GPU。

    二、卷积神经网络没有记忆功能。

    3、对图像处理很友善,对视频语音天然语言处理能力差

    四、池化层会丢失大量有价值信息,忽略局部与总体之间关联性;

    五、因为特征提取的封装,为网络性能的改进罩了一层黑盒。也就说,咱们并不知道没个卷积层到底提取到的是什么特征,并且神经网络自己就是一种难以解释的“黑箱模型”。 

5、CNN卷积神经网络的应用

一、目标分类 

二、目标检测(目标定位、人脸检测、人形检测、车辆检测) 

    (R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、YOLO V二、YOLO V3)

三、目标识别(人脸识别、人形识别)  人脸识别算法演化史    (DeepFace、FaceNet、DeepID)

四、目标跟踪

五、目标分割

六、关键点检测 

6、常见的CNN卷积神经网络

  • 卷积神经⽹络(LeNet)
  • 深度卷积神经⽹络(AlexNet)
  • 使⽤重复元素的⽹络(VGG)
  • ⽹络中的⽹络(NiN)
  • 含并⾏连结的⽹络(GoogLeNet)
  • 残差⽹络(ResNet)
  • 稠密链接⽹络(DenseNet) 

7、总结

  卷积网络在本质上是一种输入到输出的映射,它可以学习大量的输入与输出之间的映射关系,而不须要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具备输入输出对之间的映射能力。

  CNN一个很是重要的特色就是头重脚轻(越往输入权值越小,越往输出权值越多),呈现出一个倒三角的形态,这就很好地避免了BP神经网络中反向传播的时候梯度损失得太快。

  卷积神经网络CNN主要用来识别位移、缩放及其余形式扭曲不变性的二维图形。因为CNN的特征检测层经过训练数据进行学习,因此在使用CNN时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;再者因为同一特征映射面上的神经元权值相同,因此网络能够并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优点。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享下降了网络的复杂性,特别是多维输入向量的图像能够直接输入网络这一特色避免了特征提取和分类过程当中数据重建的复杂度。

 

参考:

https://www.cnblogs.com/wj-1314/p/9754072.html

https://www.jianshu.com/p/c0215d26d20a

http://www.javashuo.com/article/p-pcwsxvuz-ep.html

相关文章
相关标签/搜索