“反向传播算法”过程及公式推导(超直观好懂的Backpropagation)

前言(扯犊子)

本身学习机器学习,深度学习也有好长一段时间了,一直以来都想写点有价值的技术博客,以达到技术分享及记录本身成长的目的,奈何以前一直拖着,近来算是醒悟,打算之后不定时写一写博客,也算是做为本身不断学习,不断进步的记录。既然是写博客,但愿本身的博客之后要作到“准确、生动、简洁、易懂”的水平,作到对本身、对读者负责,但愿你们多交流,共同进步!html

言归正传,想起当时本身刚入门深度学习的时候,当时对神经网络的“反向传播”机制不是很理解(这对理解之后的不少概念来讲,很重要!!必定要搞懂!!),当时查了不少资料,花费了不少时间,感谢当时所查阅的不少资料的做者,本篇博客就网络上不少优秀的资料和我我的的理解,争取生动、简单地讲解一下BP算法,但愿可以帮助到你们。node

定义

首先来一个反向传播算法的定义(转自维基百科):反向传播(英语:Backpropagation,缩写为BP)是“偏差反向传播”的简称,是一种与最优化方法(如梯度降低法)结合使用的,用来训练人工神经网络的常见方法。 该方法对网络中全部权重计算损失函数的梯度。 这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。(偏差的反向传播)web

算法讲解(耐心看)

若是去问一下了解BP算法的人“BP算法怎推导?”,大几率获得的回答是“不就是链式求导法则嘛”,我以为这种答案对于提问题的人来讲没有任何帮助。BP的推导须要链式求导不错,但提问者每每想获得的是直观的回答,毕竟理解才是王道。直观的答案,非图解莫属了。
注:下图的确是反向传播算法,但不是深度学习中的backprop,不过backward的大致思想是同样的,毕竟偏差无法从前日后计算啊。(在深度学习中操做的是计算图—Computational graph),若是暂时不理解上面那句话,你能够当我没说过,没关系~(手动?)算法

下面经过两组图来进行神经网络前向传播反向传播算法的讲解,第一组图来自国外某网站,配图生动形象。若是对你来讲,单纯的讲解理解起来比较费劲,那么能够参考第二组图——一个具体的前向传播和反向传播算法的例子。经过本篇博客,相信就算是刚刚入门的小白(只要有一点点高等数学基础知识),也必定能够理解反向传播算法!网络

CASE 1(图示讲解,看不太懂不要紧,看第二组图)

首先拿一个简单的三层神经网络来举例,以下:
在这里插入图片描述app

每一个神经元由两部分组成,第一部分(e)是输入值权重系数乘积的,第二部分(f(e))是一个激活函数(非线性函数)的输出, y=f(e)即为某个神经元的输出,以下:
在这里插入图片描述机器学习

下面是前向传播过程:
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述svg

到这里为止,神经网络的前向传播已经完成,最后输出的y就是本次前向传播神经网络计算出来的结果(预测结果),但这个预测结果不必定是正确的,要和真实的标签(z)相比较,计算预测结果和真实标签的偏差( δ \delta ),以下:
在这里插入图片描述函数

下面开始计算每一个神经元的偏差( δ \delta ):
在这里插入图片描述
(If propagated errors came from few neurons they are added. The illustration is below: )学习

在这里插入图片描述

下面开始利用反向传播的偏差,计算各个神经元(权重)的导数,开始反向传播修改权重(When the error signal for each neuron is computed, the weights coefficients of each neuron input node may be modified. In formulas below d f ( e ) d e \dfrac {df\left( e\right) }{de} represents derivative of neuron activation function (which weights are modified). ):
在这里插入图片描述
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述
-----------手动分割-----------
在这里插入图片描述

Coefficient η \eta affects network teaching speed.
到此为止,整个网络的前向,反向传播和权重更新已经完成,推荐参考上面给出的本教程的连接,若是对纯理论讲解较难接受,不要紧,强烈推荐第二组图的例子!!!

CASE 2(具体计算举例,嫌麻烦的可直接看这个,强烈推荐!!!!!)

首先明确,“正向传播”求损失,“反向传播”回传偏差。同时,神经网络每层的每一个神经元均可以根据偏差信号修正每层的权重,只要能明确上面两点,那么下面的例子,只要会一点链式求导规则,就必定能看懂!

BP算法,也叫 δ \delta 算法,下面以3层的感知机为例进行举例讲解。
在这里插入图片描述

上图的前向传播(网络输出计算)过程以下:(此处为网络的整个偏差的计算,偏差E计算方法为mse)

在这里插入图片描述

上面的计算过程并不难,只要耐心一步步的拆开式子,逐渐分解便可。如今还有两个问题须要解决:

  1. 偏差E有了,怎么调整权重让偏差不断减少?
  2. E是权重w的函数,何如找到使得函数值最小的w。

解决上面问题的方法是梯度降低算法(简单图示以下),你们若有不太懂的可先行查阅别的资料,只要能达到理解线性回归梯度降低算法的水平便可,这里再也不赘述。
在这里插入图片描述

划重点,划重点,划重点!!!
BP算法的具体例子来喽!!

就算上面的全部东西你都看的迷迷糊糊,经过下面的例子,相信绝大多数人也能很轻松的理解BP算法。如图是一个简单的神经网络用来举例:
在这里插入图片描述

下面是前向(前馈)运算(激活函数为sigmoid):
在这里插入图片描述

下面是反向传播(求网络偏差对各个权重参数的梯度):

咱们先来求最简单的,求偏差E对w5的导数。首先明确这是一个“链式求导”过程,要求偏差E对w5的导数,须要先求偏差E对out o1的导数,再求out o1对net o1的导数,最后再求net o1对w5的导数,通过这个链式法则,咱们就能够求出偏差E对w5的导数(偏导),以下图所示:
在这里插入图片描述

导数(梯度)已经计算出来了,下面就是反向传播与参数更新过程
在这里插入图片描述

上面的图已经很显然了,若是还看不懂真的得去闭门思过了(开玩笑~),耐心看一下上面的几张图,必定能看懂的。

若是要想求偏差E对w1的导数,偏差E对w1的求导路径不止一条,这会稍微复杂一点,但换汤不换药,计算过程以下所示:
在这里插入图片描述

至此,“反向传播算法”及公式推导的过程总算是讲完了啦!我的感受,尤为是第二组图,还算是蛮通俗易懂的,但愿能帮助到你们,共同进步!

感受本篇讲的有点啰嗦了,直接放第二组图可能会更简洁,之后争取改进。

以上(麻烦你们 点赞 + 关注 一波啊)

References

http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html https://www.cnblogs.com/charlotte77/p/5629865.html https://blog.csdn.net/han_xiaoyang