反向传播算法简介

时间 2019-11-08

原文原文链接

<!doctype html>

反向传播算法

css

反向传播算法简介（BP）

原文地址：http://neuralnetworksanddeeplearning.com/chap2.htmlhtml

BP (Backpropagation algorithm) 算法所关注的是神经网络中损失函数 C (cost function) 与每个权重和偏置的偏导。BP 不只仅是一个快速的算法，其同时为咱们提供了一个视角，让咱们观察权值和偏置是如何影响网络输出的。node

译者注：本文中所描述的网络以层为单位，若是把层当作图的节点，数据流向做为图的有向边，那么本文所描述的网络所抽象出的图必定是有向无环的。本文并无翻译原文全部内容。web

反向传播算法简介（BP）1. 热身：利用矩阵实现网络计算2. 损失函数的两个特色3. Hadamard 积，4. BP 算法所依赖的四个方程4.1 BP1：输出层损失值计算4.2 BP2：使用计算 4.3 BP3：偏置值对网络损失值的影响4.4 BP4：权值对网络损失值的影响算法

1. 热身：利用矩阵实现网络计算

先介绍一种网络权重的数学标记法：，这个数学标记表示神经网络中第层的第个元素和第层第个元素之间的权重。一样，表示网络第层第个元素的偏置值，表示层第个元素的激活函数输出值。利用这种数学标记法，能够表示为：canvas

其中为神经元的激活函数，使用矩阵形式表示上述表达式：windows

定义为神经元激活函数的输入值则能够将上面表达式表示为：网络

2. 损失函数的两个特色

BP 算法用于计算网络中全部权重和偏置关于损失函数的偏导数和。为了使 BP 算法正常运行，损失函数须要知足两个条件。在给出这两个条件前，咱们先介绍一种经常使用的均方差损失函数，如式所示：app

表达式中变量分别为：是训练网络的样本个数；是训练样本的指望值（也就是样本的标签值）；表示网络的层数；是网络在输入为时输出层的输出。less

如今描述咱们对损失函数的要求。首先，损失函数能够写成全部训练样本损失值均值的形式：。

咱们作上面的要求是由于训练的过程当中咱们经常使用批训练的方式，而不是每次只使用一个样本训练网络。批训练以后咱们求当前批次样本损失值的平均数来更新权重和偏置，因此损失函数要知足叠加定理。

其次，损失函数可使用网络输出层的输出做为参数：，是网络输出层的输出，若是不知足这个要求咱们将不能定量分析网络的性能（由于没法计算网络的损失值）。以均方差损失函数为例，当样本为时，网络的损失值为：

上式中全部元素的值都是已知的，是标签、是网络输出层的输出。

3. Hadamard 积，

Hadamardd 积（哈达玛积）表示矩阵按对应元素作乘法：，例如：

4. BP 算法所依赖的四个方程

BP 算法用于计算网络中权值与偏置关于网络损失值的偏导，也就是计算：和。在计算偏导前咱们先引入一个中间变量，这个变量表示网络第层第个元素的输入值（）对整个网络损失的影响。BP 算法能够帮咱们计算出，而后咱们就能够经过获得和。

为了便于理解，这里咱们假设网络中的某个神经元（第层第个）旁边住着一个小恶魔，它能够帮咱们调整神经元的输入（）。小恶魔不出手时这个神经元的输入为：，小恶魔出手后，当前神经元的输入为：，其中是小恶魔作的调整，此时这个神经元的输出为。小恶魔对当前神经元的调整最终将影响整个网络的输出，小恶魔出手后对整个网络损失值的影响为：。

若是这是一个善良的小恶魔，那么它能够帮咱们调整输入以减小网络的损失值。若是的值不为0，那么调整，将减少整个网络的损失值（是学习率，是个比较小的小数）。若是的值为0，那么小恶魔的调整对网络损失的贡献就很是小，由于导数为 0，再大的调整对网络都没有影响（这里暂不考虑舍入偏差）。

咱们定义以下：

式的矩阵表示方法为：。BP 算法能够帮助咱们计算网络中每一层的。

4.1 BP1：输出层损失值计算

网络输出层的计算方式为：

BP1 等号右侧偏导部分表示网络输出层最后的输出对网络损失的影响强度，的导数表示这个神经元输入对整个网络损失的影响强度（下有证实）。

须要注意的是对于最后一层而言，BP1 的结果是很容易计算的。依赖于损失函数的形式。举个例子，若是咱们使用式中的均方差做为最终的损失函数，那么。

以矩阵的形式表示：

若是损失函数仍是均方差的话，那么，从而可得：

证实：

4.2 BP2：使用计算

先给出公式：

是网络第层权值矩阵的转置。结合和，咱们能够计算出网络中全部层的。

证实：

的 变 化 会 影 响 所 有 ， 故 可 以 使 用 计 算

写成矩阵形式即为式。

译者注：

若是将神经网络的每一层都看作一个函数，为当前层的输入，是当前层的输出，则输入对输出影响的强度即为函数的导数：。

神经网络通常有不少层，每一层的输入都是前一层的输出（这里只考虑简单的网络，每一层的输入只和相邻的前一层相关），那么一个含有两个隐藏层的网络能够用函数表示。其中是整个网络的输入，表示第一层网络，表示第二层网络，为整个网络的输出。

在已知第二层网络输入的前提下，。在已知网络第一层输入的前提下，求须要使用微积分中的链式求导法则，即：

式中所包含的思想和式是相同的，在已知的前提下也是已知的。由于和的函数形式是已知的故其导数形式也是已知的。

综上所述，全部层的都是能够经过链式求导法则进行计算的。

4.3 BP3：偏置值对网络损失值的影响

网络中偏置值的变化对网络损失值的影响可使用以下表达式进行计算：

结合可证式：

从式可知，咱们可使用来计算偏置值关于损失函数的梯度。

4.4 BP4：权值对网络损失值的影响

告诉咱们，咱们可使用前一层网络的输出和来计算权值关于损失函数的梯度，而这些值都是已知的。

证实：

观察上面几个方程，对于输出层而言，若是很是大且咱们使用的激活函数为，那么，此时，网络是没法更新权重与偏置的，即网络失去了学习能力。

随着网络层数的增长，位于左侧的层其权值与偏置也将很是难以更新，由于值向左传播的过程当中会愈来愈接近于0。所以，好的激活函数对网络的训练是有益的，并且网络的层数也不是越多越好，跨层链接（如ResNet）对网络的训练也是有益的。

BP所依赖的四个方程总结以下：

反向传播算法简介

反向传播算法简介（BP）

1. 热身：利用矩阵实现网络计算

2. 损失函数的两个特色

3. Hadamard 积，

4. BP 算法所依赖的四个方程

4.1 BP1：输出层损失值计算

4.2 BP2：使用 计算

4.3 BP3：偏置值对网络损失值的影响

4.4 BP4：权值对网络损失值的影响

4.2 BP2：使用计算