神经网络学习（三）反向（BP）传播算法（1）

时间 2020-12-27

系列博客是博主学习神经网络中相关的笔记和一些个人理解，仅为作者记录笔记之用，不免有很多细节不对之处。

几个定义

我们首先给出网络中权重的清晰定义。我们使用 $w_{j k}^{l}$ 表示从 $(l - 1)^{t h}$ 层的第 $k^{t h}$ 个神经元到 $l^{t h}$ 层第 $j^{t h}$ 个神经元的权重。例如，下图给出了网络中第二层的第四个神经元到第三层的第⼆个神经元的链接上的权重：

之所以如此定义权重矩阵的下标是，利于矩阵的相乘。我们对网络的偏置和激活值也会使用类似的表示。显式地，我们使用 $b_{j}^{l}$ 表示 $l^{t h}$ 层第 $j^{t h}$ 个神经元的偏置，使用 $a_{j}^{l}$ 表示 $l^{t h}$ 层第 $j^{t h}$ 个神经元的激活值，下面的图清晰地解释了这样表示的含义：

有了这些表示， $l^{t h}$ 层第 $j^{t h}$ 个神经元的激活值就与 $(l - 1)^{t h}$ 层的激活值建立起了联系

\begin{matrix} (1) & a_{j}^{l} = σ (\sum_{k} w_{j k}^{l} a_{k}^{l - 1} + b_{j}^{l}) \end{matrix}

求和是在

(l - 1)^{t h}

层所有

k

个神经元上进行的。上式可以方便改写成矩阵乘法的形式

\begin{matrix} (2) & a^{l} = σ (w^{l} a^{l - 1} + b^{l}) \end{matrix}

这里为了简化计算，我们再引入一个中间变量，称为带权输入，

\begin{matrix} (3) & z^{l} = w^{l} a^{l - 1} + b^{l} \end{matrix}

那么激活值可以表示为带权输入的函数

a^{l} = σ (z^{l})

。

在推导反向传播算法前，还需要定义个矩阵对应元素相乘的算子，这里采用Matlab的乘法符号 .*（点乘，矩阵对应元素相乘）。

BP算法四个基本方程

反向传播其实是对权重和偏置变化影响代价函数过程的理解。其本质的含义是计算偏导数 $\partial C / \partial w_{j k}^{l}$ 和 $\partial C / \partial b_{j}^{l}$ 。但是为了计算简便性，我们需要再定义一个中间变量， $δ_{j}^{l}$ ，表示 $l^{t h}$ 层第 $j^{t h}$ 个神经元的误差。我们定义

\begin{matrix} (4) & δ_{j}^{l} \equiv \frac{\partial C}{\partial z_{j}^{l}} \end{matrix}

方程1

输出层误差的方程， $δ^{L}$ ：每个元素定义如下：

\begin{matrix} (BP1) & δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{L}) \end{matrix}

上式利用了微分链式法则，右式第一个项

\partial C / \partial a_{j}^{L}

表示代价函数随着

j^{t h}

输出激活值的变化而变化的速度。假如

C

不太依赖一个特定的输出神经元

j

，那么

δ_{j}^{L}

就会很小，这也是我们想要的效果。右式第二项

σ^{'} (z_{j}^{L})

刻画了在

z_{j}^{L}

处激活函数

σ

变化的速度。

注意到在(BP1)中的每个部分都是很好计算的。特别地，我们在计算网络行为时计算 $z_{j}^{L}$ ，这仅仅需要一点点额外工作就可以计算 $σ^{'} (z_{j}^{L})$ 。当然 $\partial C / \partial a_{j}^{L}$ 依赖于代价函数的形式。然而，给定了代价函数，计算 $\partial C / \partial a_{j}^{L}$ 就没有什么大问题了。例如，如果我们使用二次函数，那么 $C = \frac{1}{2} \sum_{j} (y_{j} - a_{j})^{2}$ ，所以 $\partial C / \partial a_{j}^{L} = (a_{j} - y_{j})$ ，这其实很容易计算。

方程(BP1)对 $δ^{L}$ 来说是个按分量构成的。这是一个非常好的表达式，但不是我们期望的用矩阵表示的形式。以矩阵形式重写方程其实很简单，

\begin{matrix} (BP1a) & δ^{L} = \nabla_{a} C . * σ^{'} (z^{L}) \end{matrix}

这里

\nabla_{a} C

被定义成一个向量，其元素是偏导数

\partial C / \partial a_{j}^{L}

。你可以将

\nabla_{a} C

看成是

C

关于输出激活值的改变速度。方程(BP1)和方程(BP1a)的等价也是显而易见的，所以现在开始，我们会用(BP1)表示这两个方程。举个例子，在二次代价函数时，我们有

\nabla_{a} C = (a^{L} - y)

，所以 (BP1) 的整个矩阵形式就变成

\begin{matrix} (5) & δ^{L} = (a^{L} - y) . * σ^{'} (z^{L}) \end{matrix}

方程2

使用下一层的误差 $δ^{l + 1}$ 来表示当前层的误差 $δ^{l}$ ：特别地，

\begin{matrix} (BP2) & δ^{l} = ((w^{l + 1})^{T} δ^{l + 1}) . * σ^{'} (z^{l}) \end{matrix}

其中

(w^{l + 1})^{T}

是

(l + 1)^{t h}

层权重矩阵

w^{l + 1}

的转置。这个公式看上去有些复杂，但每一个元素有很好的解释。假设我们知道

l + 1^{t h}

层的误差

δ^{l + 1}

。当我们应用转置的权重矩阵

(w^{l + 1})^{T}

，我们可以凭直觉地把它看作是在沿着网络反向移动误差，给了我们度量在

l^{t h}

层输出的误差方法。

通过组合(BP1) 和(BP2)，我们可以计算任何层的误差 $δ^{l}$ 。首先使用(BP1) 计算 $δ^{L}$ ，然后应用方程(BP2)来计算 $δ^{L - 1}$ ，然后再次用方程(BP2)来计算 $δ^{L - 2}$ ，如此一步一步地反向传播完整个网络。

下一步，我们将证明(BP2)，为此，我们想要以 $δ_{k}^{l + 1} = \partial C / \partial z_{k}^{l + 1}$ 的形式重写 $δ_{j}^{l} = \partial C / \partial z_{j}^{l}$ 。我们可以用链式法则：

δ_{j}^{l} = \frac{\partial C}{\partial z_{j}^{l}} = \sum_{k} \frac{\partial C}{\partial z_{k}^{l + 1}} \frac{\partial z_{k}^{l + 1}}{\partial z_{j}^{l}} = \sum_{k} \frac{\partial z_{k}^{l + 1}}{\partial z_{j}^{l}} δ_{k}^{l + 1}

这里最后一行我们交换了右边的两项，并用

δ_{k}^{l + 1}

的定义代入。为了对最后一行的第一项求值，注意：

z_{k}^{l + 1} = \sum_{j} w_{k j}^{l + 1} a_{j}^{l} + b_{k}^{l + 1} = \sum_{j} w_{k j}^{l + 1} σ (z_{j}^{l}) + b_{k}^{l + 1}

做微分，我们得到

\frac{\partial z_{k}^{l + 1}}{\partial z_{j}^{l}} = w_{k j}^{l + 1} σ^{'} (z_{j}^{l})

把它代入我们得到

δ_{j}^{l} = \sum_{k} w_{k j}^{l + 1} δ_{k}^{l + 1} σ^{'} (z_{j}^{l})

这正是以分量形式写的(BP2)。

方程3

代价函数关于网络中偏置的改变率：

\begin{matrix} (BP3) & \frac{\partial C}{\partial b_{j}^{l}} = δ_{j}^{l} \end{matrix}

误差

δ_{j}^{l}

和偏导数值

\partial C / \partial b_{j}^{l}

完全一致。这是很好的性质，因为(BP1) 和 (BP2) 已经告诉我们如何计算

δ_{j}^{l}

。
这个证明十分简单：

\frac{\partial C}{\partial b_{j}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{l}}{\partial b_{j}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} = δ_{j}^{l}

方程4

代价函数关于网络中权重的改变率：特别地，

\begin{matrix} (BP4) & \frac{\partial C}{\partial w_{j k}^{l}} = a_{k}^{l - 1} δ_{j}^{l} \end{matrix}

这告诉我们如何计算偏导数

\partial C / \partial w_{j k}^{l}

，其中

δ^{l}

和

a^{l - 1}

这些量我们都已经知道如何计算了。

这个公式的证明也十分简单：

\frac{\partial C}{\partial w_{j k}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{l}}{\partial w_{j k}^{l}} = a_{k}^{l - 1} δ_{j}^{l}

小节：四个基本公式

\begin{matrix} (BP1) & δ^{L} = \nabla_{a} C . * σ^{'} (z^{L}) \end{matrix}

\begin{matrix} (BP2) & δ^{l} = ((w^{l + 1})^{T} δ^{l + 1}) . * σ^{'} (z^{l}) \end{matrix}

\begin{matrix} (BP3) & \frac{\partial C}{\partial b_{j}^{l}} = δ_{j}^{l} \end{matrix}

\begin{matrix} (BP4) & \frac{\partial C}{\partial w_{j k}^{l}} = a_{k}^{l - 1} δ_{j}^{l} \end{matrix}