深度学习基石：一篇文章理解反向传播

原文地址：https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/web

背景

反向传播是训练神经网络的经常使用方法，以前对此一直了解的不够完全，这篇文章算是让我完全搞懂了反向传播的细节。算法

概观

对于本教程，咱们将使用具备两个输入，两个隐藏的神经元，两个输出神经元的神经网络。此外，隐藏和输出神经元将包括一个偏见。网络

基本结构以下：并发

为了使用一些数字，下面是最初的权重，偏见和培训输入/输出：wordpress

反向传播的目标是优化权重，以便神经网络能够学习如何正确映射任意输入到输出。函数

对于本教程的其他部分，咱们将使用单个训练集：给定输入0.05和0.10，咱们但愿神经网络输出0.01和0.99。学习

前进通行证

首先，让咱们看看神经网络目前预测的是什么，给定0.05和0.10的权重和误差。为此，咱们将经过网络向前馈送这些输入。优化

咱们计算出净输入总到每一个隐藏层神经元，壁球使用的总净输入激活功能（在这里咱们使用的逻辑功能），而后重复上述过程与输出层的神经元。.net

总净输入也被称为只是 净输入的一些消息来源。

如下是咱们计算总净投入的方法 $H_1$ ：

$net_ {h1} = w_1 * i_1 + w_2 * i_2 + b_1 * 1$

$net_ {h1} = 0.15 * 0.05 + 0.2 * 0.1 + 0.35 * 1 = 0.3775$

而后咱们使用逻辑函数对其进行压缩以得到如下输出 $H_1$ ：

$out_ {h1} = \ frac {1} {1 + e ^ { - net_ {h1}}} = \ frac {1} {1 + e ^ { - 0.3775}} = 0.593269992$

执行相同的过程， $H_2$ 咱们获得：

$out_ {h2} = 0.596884378$

咱们重复这个过程为输出层神经元，使用隐藏层神经元的输出做为输入。

如下是输出 $O-1$ ：

$net_ {o1} = w_5 * out_ {h1} + w_6 * out_ {h2} + b_2 * 1$

$net_ {o1} = 0.4 * 0.593269992 + 0.45 * 0.596884378 + 0.6 * 1 = 1.105905967$

$out_ {o1} = \ frac {1} {1 + e ^ { - net_ {o1}}} = \ frac {1} {1 + e ^ { - 1.105905967}} = 0.75136507$

并执行相同的过程， $0-2$ 咱们获得：

$out_ {o2} = 0.772928465$

计算总偏差

如今咱们可使用平方偏差函数来计算每一个输出神经元的偏差，并将它们相加获得总偏差：

$E_ {total} = \ sum \ frac {1} {2}（目标 - 输出）^ {2}$

有些来源将目标称为理想，而输出 则以实际为目标。

这 $\压裂{1} {2}$ 是包括的，以便指数在咱们稍后区分时被取消。不管如何，结果最终会乘以学习率，因此咱们在这里引入一个常数并不重要[ 1 ]。

例如，目标输出为 $O-1$ 0.01，但神经网络输出为0.75136507，所以其偏差为：

$E_ {o1} = \ frac {1} {2}（target_ {o1} -out_ {o1}）^ {2} = \ frac {1} {2}（0.01-0.75136507）^ {2} = 0.274811083$

重复这个过程 $0-2$ （记住目标是0.99），咱们获得：

$E_ {o2} = 0.023560026$

神经网络的总偏差是这些偏差的总和：

$E_ {total} = E_ {o1} + E_ {o2} = 0.274811083 + 0.023560026 = 0.298371109$

向后传递

咱们使用反向传播的目标是更新网络中的每一个权重，使它们使实际输出更接近目标输出，从而最大限度地减小每一个输出神经元和整个网络的偏差。

输出层

考虑一下 $的例句$ 。咱们想知道变化 $的例句$ 会影响总偏差，也就是说 $\ frac {\ partial E_ {total}} {\ partial w_ {5}}$ 。

$\ frac {\ partial E_ {total}} {\ partial w_ {5}}$ 读做“部分的衍生物 $E_ {}总$ 相对于 $W_ {5}$ ”。你也能够说“关于梯度 $W_ {5}$ ”。

经过应用链式规则，咱们知道：

$\ frac {\ partial E_ {total}} {\ partial w_ {5}} = \ frac {\ partial E_ {total}} {\ partial out_ {o1}} * \ frac {\ partial out_ {o1}} {\部分net_ {o1}} * \ frac {\ partial net_ {o1}} {\ partial w_ {5}}$

在视觉上，这是咱们正在作的事情：

咱们须要找出这个方程中的每一部分。

首先，总偏差相对于输出的变化有多大？

$E_ {total} = \ frac {1} {2}（target_ {o1} -out_ {o1}）^ {2} + \ frac {1} {2}（target_ {o2} - out_ {o2}）^ { 2}$

$\ frac {\ partial E_ {total}} {\ partial out_ {o1}} = 2 * \ frac {1} {2}（target_ {o1} - out_ {o1}）^ {2-1} * -1 + 0$

$\ frac {\ partial E_ {total}} {\ partial out_ {o1}} = - （target_ {o1} - out_ {o1}）= - （0.01 - 0.75136507）= 0.74136507$

$- （目标出）$ 有时表达为 $超出目标$

当咱们取总误差的偏导数时 $OUT_ {} O1$ ，数量 $\ frac {1} {2}（target_ {o2} - out_ {o2}）^ {2}$ 变为零，由于 $OUT_ {} O1$ 它不影响它，这意味着咱们正在取一个常数为零的导数。

接下来， $O-1$ 相对于其总净投入的变化输出多少？

逻辑函数的偏导数是输出乘以1减去输出：

$out_ {o1} = \ frac {1} {1 + e ^ { - net_ {o1}}}$

$（1-out_ {o1}）= 0.75136507（1-0.75136507）= 0.186815602$

最后，关于 $O1$ 变化的总净投入是 $的例句$ 多少？

$net_ {o1} = w_5 * out_ {h1} + w_6 * out_ {h2} + b_2 * 1$

$\ frac {\ partial net_ {o1}} {\ partial w_ {5}} = 1 * out_ {h1} * w_5 ^ {（1-1）} + 0 + 0 = out_ {h1} = 0.593269992$

把它放在一块儿：

$\ frac {\ partial E_ {total}} {\ partial w_ {5}} = 0.74136507 * 0.186815602 * 0.593269992 = 0.082167041$

您常常会看到以delta规则的形式组合这个计算：

$\ frac {\ partial E_ {total}} {\ partial w_ {5}} = - （target_ {o1} - out_ {o1}）* out_ {o1}（1 - out_ {o1}）* out_ {h1}$

或者，咱们有 $\ frac {\ partial E_ {total}} {\ partial out_ {o1}}$ 和 $\ frac {\ partial out_ {o1}} {\ partial net_ {o1}}$ 能够写成 $\ frac {\ partial E_ {total}} {\ partial net_ {o1}}$ ，又名 $\ delta_ {O1}$ （希腊字母三角洲）aka 节点三角洲。咱们能够用它来重写上面的计算：

$\ delta_ {o1} = \ frac {\ partial E_ {total}} {\ partial out_ {o1}} * \ frac {\ partial out_ {o1}} {\ partial net_ {o1}} = \ frac {\ partial E_ {total}} {\ partial net_ {o1}}$

$\ delta_ {o1} = - （target_ {o1} - out_ {o1}）* out_ {o1}（1 - out_ {o1}）$

所以：

$\ frac {\ partial E_ {total}} {\ partial w_ {5}} = \ delta_ {o1} out_ {h1}$

有些来源提取负号， $\三角洲$ 因此它会写成：

$\ frac {\ partial E_ {total}} {\ partial w_ {5}} = - \ delta_ {o1} out_ {h1}$

为了减小偏差，咱们从当前权重中减去这个值（可选地乘以一些学习率eta，咱们将其设置为0.5）：

$w_5 ^ {e} * \ frac {\ partial E_ {total}} {\ partial w_ {5}} = 0.4 - 0.5 * 0.082167041 = 0.35891648$

有些来源使用 $\α$ （alpha）来表示学习率，其余来源使用 $\ ETA$ （eta），其余使用 $\小量$ （epsilon）。

咱们能够重复这个过程当中得到新的权重 $w_6$ ， $w_7$ 以及 $w_8$ ：

$w_6 ^ {+} = 0.408666186$

$w_7 ^ {+} = 0.511301270$

$w_8 ^ {+} = 0.561370121$

在咱们将新权重引入隐含层神经元以后，咱们执行神经网络中的实际更新（即，当咱们继续下面的反向传播算法时，咱们使用原始权重，而不是更新的权重）。

隐藏层

接下来，咱们将继续为新的计算值，向后传递 $W_1$ ， $W_2$ ， $w_3$ ，和 $W_4$ 。

大图片，这是咱们须要弄清楚的：

$\ frac {\ partial E_ {total}} {\ partial w_ {1}} = \ frac {\ partial E_ {total}} {\ partial out_ {h1}} * \ frac {\ partial out_ {h1}} {\ partial net_ {h1}} * \ frac {\ partial net_ {h1}} {\ partial w_ {1}}$

视觉：

咱们将使用与输出层相似的过程，但略有不一样，以说明每一个隐藏层神经元的输出对多个输出神经元的输出（并所以产生偏差）的贡献。咱们知道这 $OUT_ {} H1$ 影响到二者 $OUT_ {} O1$ ， $OUT_ {} O2$ 所以 $\ frac {\ partial E_ {total}} {\ partial out_ {h1}}$ 须要考虑它对两个输出神经元的影响：

$\ frac {\ partial E_ {total}} {\ partial out_ {h1}} \ frac {\ partial E_ {o1}} {\ partial out_ {h1}} + \ frac {\ partial E_ {o2}} {\部分out_ {h1}}$

从如下开始 $\ frac {\ partial E_ {o1}} {\ partial out_ {h1}}$ ：

$\ frac {\ partial E_ {o1}} {\ partial out_ {h1}} \ frac {\ partial E_ {o1}} {\ partial net_ {o1}} * \ frac {\ partial net_ {o1}} {\部分out_ {h1}}$

咱们能够 $\ frac {\ partial E_ {o1}} {\ partial net_ {o1}}$ 使用咱们以前计算的值来计算：

$\ frac {\ partial E_ {o1}} {\ partial net_ {o1}} = \ frac {\ partial E_ {o1}} {\ partial out_ {o1}} * \ frac {\ partial out_ {o1}} {\部分net_ {o1}} = 0.74136507 * 0.186815602 = 0.138498562$

而且 $\ frac {\ partial net_ {o1}} {\ partial out_ {h1}}$ 等于 $的例句$ ：

$net_ {o1} = w_5 * out_ {h1} + w_6 * out_ {h2} + b_2 * 1$

$\ frac {\ partial net_ {o1}} {\ partial out_ {h1}} = w_5 = 0.40$

将它们插入：

$\ frac {\ partial E_ {o1}} {\ partial out_ {h1}} \ frac {\ partial E_ {o1}} {\ partial net_ {o1}} * \ frac {\ partial net_ {o1}} {\部分out_ {h1}} = 0.138498562 * 0.40 = 0.055399425$

按照相同的过程 $\ frac {\ partial E_ {o2}} {\ partial out_ {h1}}$ ，咱们获得：

$\ frac {\ partial E_ {o2}} {\ partial out_ {h1}} = -0.019049119$

所以：

$\ frac {\ partial E_ {total}} {\ partial out_ {h1}} \ frac {\ partial E_ {o1}} {\ partial out_ {h1}} + \ frac {\ partial E_ {o2}} {\部分out_ {h1}} = 0.055399425 + -0.019049119 = 0.036350306$

如今，咱们有 $\ frac {\ partial E_ {total}} {\ partial out_ {h1}}$ ，咱们须要弄清楚 $\ frac {\ partial out_ {h1}} {\ partial net_ {h1}}$ ，而后 $\ frac {\ partial net_ {h1}} {\ partial w}$ 每个权重：

$out_ {h1} = \ frac {1} {1 + e ^ { - net_ {h1}}}$

$（1 - 0.59326999）= 0.241300709（1 - out_ {h1}）= 0.59326999$

咱们计算总净投入的偏导数， $H_1$ 与 $W_1$ 咱们对输出神经元所作的相同：

$net_ {h1} = w_1 * i_1 + w_3 * i_2 + b_1 * 1$

$\ frac {\ partial net_ {h1}} {\ partial w_1} = i_1 = 0.05$

把它放在一块儿：

$\ frac {\ partial E_ {total}} {\ partial w_ {1}} = 0.036350306 * 0.241300709 * 0.05 = 0.000438568$

你也能够看到这写成：

$\ frac {\ partial E_ {total}} {\ partial w_ {1}} =（\ sum \ limits_ {o} {\ frac {\ partial E_ {total}} {\ partial out_ {o}} * \ frac { \ partial {{}} {\ partial net_ {o}} \ \ frac {\ partial net_ {o}} {\ partial out_ {h1}}}）* \ frac {\ partial out_ {h1}} {\ partial net_ {h1}} * \ frac {\ partial net_ {h1}} {\ partial w_ {1}}$

$\ frac {\ partial E_ {total}} {\ partial w_ {1}} =（\ sum \ limits_ {o} {\ delta_ {o} * w_ {ho}}）* out_ {h1}（1 - out_ { h1}）* i_ {1}$

$\ frac {\ partial E_ {total}} {\ partial w_ {1}} = \ delta_ {h1} i_ {1}$

咱们如今能够更新 $W_1$ ：

$w1 ^ {+} = w_1 - \ eta * \ frac {\ partial E_ {total}} {\ partial w_ {1}} = 0.15 - 0.5 * 0.000438568 = 0.149780716$

重复这些 $W_2$ ， $w_3$ 和 $W_4$

$w_2 ^ {+} = 0.19956143$

$w_3 ^ {+} = 0.24975114$

$w_4 ^ {+} = 0.29950229$

最后，咱们已经更新了全部的重量！当咱们最初输入0.05和0.1的输入时，网络上的偏差为0.298371109。在第一轮反向传播以后，总偏差如今降至0.291027924。它可能看起来并很少，可是在重复这个过程10,000次后，错误会直线降低到0.0000351085。此时，当咱们提早0.05和0.1时，两个输出神经元产生0.015912196（vs 0.01目标）和0.984065734（vs 0.99目标）。

若是你已经作到了这一点，并发现上述任何错误，或者能够想出任何方法使将来的读者更清楚，不要犹豫，给我一个笔记。谢谢！

深度学习基石：一篇文章理解反向传播

逐步反向传播示例

背景

概观

前进通行证

计算总偏差

向后传递

输出层

隐藏层