在dl中,有一个很重要的概念,就是卷积神经网络CNN,基本是入门dl必须搞懂的东西。本文基本根据斯坦福的机器学习公开课、cs231n、与七月在线寒老师讲的5月dl班第4次课CNN与经常使用框架视频所写,是一篇课程笔记。本只是想把重点放在其卷积计算具体是怎么计算怎么操做的,但后面不断补充,故写成了关于卷积神经网络的通俗导论性的文章。有何问题,欢迎不吝指正。html
神经网络由大量的节点(或称“神经元”、“单元”)和相互链接而成。每一个神经元接受输入的线性组合,进行非线性变换(亦称激活函数activation function)后输出。每两个节点之间的链接表明加权值,称之为权重(weight)。不一样的权重和激活函数,则会致使神经网络不一样的输出。git
举个手写识别的例子,给定一个未知数字,让神经网络识别是什么数字。此时的神经网络的输入由一组被输入图像的像素所激活的输入神经元所定义。在经过激活函数进行非线性变换后,神经元被激活而后被传递到其余神经元。重复这一过程,直到最后一个输出神经元被激活。从而识别当前数字是什么字。github
神经网络的每一个神经元/单元以下web
相似wx + b的形式,其中网络
若是只是上面这样一说,估计之前没接触过的十有八九又一定迷糊了。事实上,在20世纪50/60年代,上述简单神经元被称之为感知机,能够把感知机理解为一个根据不一样因素、以及各个因素的重要性程度而作决策的模型。框架
举个例子,这周末北京有一草莓音乐节,那去不去呢?决定你是否去有3个因素,这三个因素能够对应三个输入,分别用x一、x二、x3表示,此外,这三个因素对作决策的影响程度不同,各自的影响程度用权重w一、w二、w3表示。通常来讲,音乐节的演唱嘉宾会很是影响你去不去,唱得好的前提下 即使天气很差、没人陪同均可忍受,但若是唱得很差还不如你上台唱呢。因此,咱们能够以下表示:机器学习
经常使用的激活函数有sigmoid、tanh、relu等等,前二者sigmoid/tanh比较常见于全连接层,后者relu常见于卷积层。这里先简要介绍下最基础的sigmoid函数(btw,在本博客中SVM那篇文章开头有提过)。函数
sigmoid的函数表达式以下学习
其中z是一个线性组合,好比z能够等于:w0 + w1*x1 + w2*x2。经过代入很大的正数或很小的负数到函数中可知,g(z)结果趋近于0或1。spa
所以,sigmoid函数的图形表示以下:
也就是说,sigmoid函数的功能是至关于把一个实数压缩至0到1之间。输入很是大的正数时,输出结果会接近1,而输入很是大的负数时,则会获得接近0的结果。压缩至0到1有何用处呢?用处是这样一来变能够把激活函数看做一种“分类的几率”,好比激活函数的输出为0.9的话即可以解释为90%的几率为正样本。
将下图的这种单个神经元
组织在一块儿,便造成了神经网络。下图即是一个三层神经网络结构
上图中最左边的原始输入信息称之为输入层,最右边的神经元称之为输出层(上图中输出层只有一个神经元),中间的叫隐藏层。
啥叫输入层、输出层、隐藏层呢?
同时,每一层均可能由单个或多个神经元组成,每一层的输出将会做为下一层的输入数据。好比下图中间隐藏层来讲,隐藏层的3个神经元a一、a二、a3皆各自接受来自多个不一样权重的输入,接着,a一、a二、a3又在自身各自不一样权重的影响下 成为的输出层的输入,最终由输出层输出最终结果。
上图(注:图引自斯坦福机器学习公开课)中
此外,输入层和隐藏层都存在一个偏置(bias unit),因此上图中也增长了偏置项:x0、a0。针对上图,有以下公式
此外,上文中讲的都是一层隐藏层,但实际中也有多层隐藏层的,即输入层和输出层中间夹着数层隐藏层,层和层之间是全链接的结构,同一层的神经元之间没有链接。
cs231n课程里给出了卷积神经网络各个层级结构,以下图
上图中CNN要作的事情是:给定一张图片,是车仍是马未知,是什么车也未知,如今须要模型判断这张图片里具体是一个什么东西,总之输出一个结果:若是是车 那是什么车
因此
中间是
最右边是
对应位置上是数字先乘后相加
=
![]()
以下图所示
随着左边数据窗口的平移滑动,滤波器Filter w0对不一样的局部数据进行卷积计算。
值得一提的是:
我第一次看到上面这个动态图的时候,只以为很炫,另外就是听说“相乘后想加”,但到底具体是个怎么相乘后想加的过程 则没法一眼看出,网上也没有一目了然的计算过程。本文来细究下。
首先,咱们来分解下上述动图,以下图
接着,咱们细究下上图的具体计算过程。即上图中的输出结果-1具体是怎么计算获得的呢?其实,相似wx + b,w对应滤波器Filter w0,x对应不一样的数据窗口,b对应Bias b0,至关于滤波器Filter w0与一个个数据窗口相乘再求和后,最后加上Bias b0获得输出结果-1,以下过程所示:
-1* 0 + 0*0 + 1*0
+
0*0 + 1*0 + 0*1
+
0*0 + -1*2 + -1*0
+
0*0 + -1*0 + -1*0
+
-1*0 + 1*0 + -1*0
+
0*0 + -1*0 + 1*1
+
0*0 + -1*0 + 1*0
+
0*0 + 0*1 + -1*0
+
0*0 + 1*0 + -1*1
+
1
=
-1
而后滤波器Filter w0固定不变,数据窗口向右移动2步,继续作内积计算,获得4的输出结果
最后,换作另一个不一样的滤波器Filter w一、不一样的偏置Bias b1,再跟图中最左边的数据窗口作卷积,可获得另一个不一样的输出。
2.2节介绍了激活函数sigmoid,但实际梯度降低中,容易饱和和终止梯度传递,且没有0中心化。咋办呢,能够尝试另一个激活函数:ReLU,其图形表示以下
ReLU的优势是收敛快,求梯度简单。
前头说了,池化,简言之,即取区域平均或最大,以下图所示
上图所展现的是取区域最大,即上图左边部分中 左上角2x2的矩阵中6最大,右上角2x2的矩阵中8最大,左下角2x2的矩阵中3最大,右下角2x2的矩阵中4最大,因此获得上图右边部分的结果:6 8 3 4。很简单不是?
本文基本上边看5月dl班寒讲的CNN视频边作笔记,以前断断续续看过很多CNN相关的资料(包括cs231n),但今晚看过视频以后,才系统了解CNN究竟是个什么东西,做为听众 寒讲的真心赞、清晰。而后在写CNN相关的东西时,发现一些前置知识(好比神经元、多层神经网络等也须要介绍下),包括CNN的其它层次机构(好比激励层),因此本文本只想简要介绍下卷积操做的,但考虑到知识之间的先后关联,因此越写越长,便成本文了。
此外,在写做本文的过程当中,请教了咱们讲师团队里的寒、冯两位,感谢他们。
July、二零一六年七月三日晚更新。