神经网络和BP算法推导

时间 2019-12-10

标签神经网络算法推导繁體版

原文原文链接

个人原文：www.hijerry.cn/p/53364.htm…html

感知机

感知机（perceptron）于1957年由Rosenblatt提出，是一种二分类线性模型。感知机以样本特征向量做为输入，输出为预测类别，取正、负两类。感知机最终学习到的是将输入空间（特征空间）划分为正、负两类的分离超平面，属于判别模型。为此，使用误分类做为损失函数，利用梯度降低优化该函数，可求得感知机模型。感知机是神经网络与支持向量机的基础。git

单层感知机

第个样本的预测值 $\hat{y_i} = f(\vec{w} \cdot \vec{x_i} + b)$ ，其中 $f(\cdot)$ 称为激活函数， $f(\cdot) \in \{-1, 1\}$ ，损失为 $L_i=\frac{1}{2}(\hat{y_i}-y_i)^2$ 。单层感知机的目的就是习得合适的 $\vec{w}$ 与，使得全部样本的损失之和 $\sum_{x_i \in X} L_i$ 最小。github

若是咱们令 $z = \vec{w} \cdot \vec{x_i} + b$ 即感知机的输入。那么当时，；当时，。由于是线性组合，因此最终获得的是一个超平面 $\vec{w} \cdot \vec{x}+b=0$ ，超平面将输入样本分为了和 -1两类。算法

当输入是二维向量时，用红点表示的数据，黑点表示的数据，最终习得的是一条直线，将两个数据分离开，以下图所示。bash

由于单层感知机最终习得是超平面，因此只能用于解决线性可分问题。对于下面这样的数据，单层感知机无能为力。网络

多层感知机

多层感知机也叫MLP，能够看作是一个有向图。MLP由多层节点组成，每一层全链接到下一层，除输入节点外，每一个节点都是一个带有非线性激活函数的神经元（unit）。多层感知机可用于解决线性不可分问题。机器学习

由于神经网络的和多层感知器是一个意思，因此下面直接对单层前馈神经网络进行详细说明。函数

单层前馈神经网络

下图是一个输入层节点数为3，隐藏层节点数为2，输出层节点数为2的前馈神经网络，该网络可用于解决二分类问题。学习

单层前馈神经网络本质上是一个多层感知机，有如下几个特色：优化

全链接。每一层的节点都与右边层的全部节点经过权重链接。
隐藏层只有一层。因此称之为单层。
数据单向流动。每一层节点只做用于其以后的层，因此叫做前馈。
本质是数学函数。神经网络能够明确的用数学语言表达。

神经元

咱们拿出隐藏层的一个神经元（unit）放大来看：

神经元的任务就是接受输入，产生输出。

z 表示神经元的输入，a 是神经元的输出。

输入怎么得来？就是上一层的神经元输出与权重 的乘积之和再加上偏置。

输出怎么得来？把输入值带入激活函数 获得。

写成数学表达式就是：

$z^{(2)}_1 = w^{(1)}_{11}a^{(1)}_1+w^{(1)}_{21}a^{(1)}_2+w^{(1)}_{31}a^{(1)}_3+b^{(1)}_1$

$a^{(2)}_1=f(z^{(2)}_1)$

$f(\cdot)$ 是激活函数，常见的有sigmoid、tanh、ReLU。

Sigmoid函数

Sigmoid的表达式为 $S(x)=\frac{1}{1+e^{-x}}$ ，定义域为，值域为

在处，函数值为 $\frac{1}{2}$ ，其函数图像以下：

sigmoid函数有许多优美的性质，如：

是的复合函数，又名天然常数
1阶导函数为。即函数在某一点的导数可由函数在这一点的函数值求得
曲线光滑，定义域内到处可导，且能够无限次求导
能够把任意输入压缩到范围内

在反向传播算法（BP算法）中，性质二、3起到了极大的做用，性质4起到了防溢出的做用。

前向传播原理

现考虑一个样本，其中 $x \in R^3$ 是输入数据， $y \in \{[0,1],[1,0]\}$ 是实际值。咱们如今来手动计算预测值 $\hat{y}$ 。预测值 $\hat{y}$ 的计算过程是从输入层开始从左往右计算的，因此这个过程也叫做前向传播。

下图表示，为了获得 $a^{(3)}_1$ ，有哪些神经元被激活了。

为了方便表述，用 $w^{(l)}_{ij}$ 表示第层的第个神经元与第层的第个神经元相连的权重，用 $b^{(l)}_j$ 表示第层第个神经元的偏置值。

输入层

注意。输入层没有激活函数，因此：

$[a^{(1)}_1, a^{(1)}_2,a^{(1)}_3]=x$

隐藏层

$z^{(2)}_1 = w^{(1)}_{11}a^{(1)}_1+w^{(1)}_{21}a^{(1)}_2+w^{(1)}_{31}a^{(1)}_3+b^{(1)}_1$

$z^{(2)}_2 = w^{(1)}_{12}a^{(1)}_1+w^{(1)}_{22}a^{(1)}_2+w^{(1)}_{32}a^{(1)}_3+b^{(1)}_2$

$a^{(2)}_1=sigmoid(z^{(2)}_1)$

$a^{(2)}_2=sigmoid(z^{(2)}_2)$

输出层

若是咱们把 $a^{(3)}_1$ 做为类别为的几率，将 $a^{(3)}_2$ 做为类别为1的几率，则样本的预测值能够写成 $\hat{y_i}=\max \{a^{(3)}_1, a^{(3)}_2\}$ ，因此为了让 $a^{(3)}_1 + a^{(3)}_2 = 1$ ，选用做为输出层的激活函数。

$z^{(3)}_1=w^{(2)}_{11}a^{(2)}_1+w^{(2)}_{21}a^{(2)}_2+b^{(2)}_1$

$z^{(3)}_2=w^{(2)}_{12}a^{(2)}_1+w^{(2)}_{22}a^{(2)}_2+b^{(2)}_2$

令 $g(z^{(k)})=\sum exp({z^{(k)}_i})$ ，

$a^{(3)}_1=softmax(z^{(3)}_1,z^{(3)})=\frac{exp({z^{(3)}_1)}}{g(z^{(3)})}$

$a^{(3)}_2=softmax(z^{(3)}_2,z^{(3)})=\frac{exp({z^{(3)}_2})}{g(z^{(3)})}$

咱们令 $\hat{y}_1=a^{(3)}_1$ ， $\hat{y}_2=a^{(3)}_2$ ，那么 $\hat{y}=[\hat{y}_1, \hat{y}_2]$ ，同理设

神经网络能够明确的用数学语言表达，它的函数表达式，能够明确的写出来
复制代码

若是真的将这个数学表达式写出来，那么这个数学函数 $network(\cdot)$ 是一个包含 $(3+1) \times 2 + (2+1) \times 2=14$ 个参数的函数，函数输入可获得预测值 $\hat{y}$ ，这个表达式会很是长。

反向传播原理

咱们如今来优化网络中这10个权重参数和4个偏置参数。

定义输出层的节点的偏差，可用的损失函数有：

均方偏差： $E = \sum_{j=1}^2\frac{1}{2} (\hat{y}_j-y_j)^2$
交叉熵损失： $CE=CE(\hat{y},y)=-\sum_{j=1}^{2}y_{j}ln\hat{y}_j$

使用梯度降低算法来优化损失函数，则须要求出损失函数对全部参数的导数，这个过程在计算上是从输出层开始从右往左计算的，由于与计算预测值 $\hat{y_i}$ 的过程恰巧相反，因此也叫做反向传播。

权重的导数

以计算权重 $w^{(2)}_{21}$ 的偏导数为例，根据链式法则不可贵到：

$\frac{\partial CE}{\partial w^{(2)}_{21}} = \frac{\partial CE}{\partial \hat{y_1}} \frac{\partial \hat{y}_1}{\partial z^{(3)}_1} \frac{\partial z^{(3)}_1}{\partial w^{(2)}_{21}}$

∵ $CE=-\sum_{j=1}^{2}y_jln\hat{y}_j=-(y_1ln\hat{y}_1+y_2ln\hat{y}_2)$ ，又， $\hat{y}_1+\hat{y}_2=1$

∴ $CE =-(y_1ln\hat{y}_1+(1-y_1)ln(1-\hat{y}_1))$ （注：这是二分类问题特有的交叉熵表示方式）

∴ $\frac{\partial CE}{\partial \hat{y}_1}=-(\frac{y_1}{\hat{y}_1} - \frac{1-y_1}{1-\hat{y_1}})=\frac{\hat{y}_1-y_1}{\hat{y}_1(1-\hat{y}_1)}$

又 $\frac{\partial \hat{y}_1}{\partial z^{(3)}_1}=\frac{exp(z^{(3)}_1)exp(z^{(3)}_2)}{(exp(z^{(3)}_1)+exp(z^{(3)}_2))^2}=\hat{y}_1\hat{y}_2=\hat{y_1}(1-\hat{y}_1)$

且 $\frac{\partial z^{(3)}_1}{\partial w^{(2)}_{21}}=a^{(2)}_2$

故原偏导数可写成：

$\frac{\partial CE}{\partial w^{(2)}_{11}}=\frac{\hat{y}_1-y_1}{\hat{y}_1(1-\hat{y}_1)} \cdot \hat{y_1}(1-\hat{y}_1) \cdot a^{(2)}_1=(\hat{y}_1-y_1) \cdot a^{(2)}_2$

更通用化的表达，如何计算 $w^{(2)}_{ij}$ ？依葫芦画瓢得：

$\frac{\partial CE}{\partial w^{(2)}_{ij}} = \frac{\partial CE}{\partial \hat{y_i}} \frac{\partial \hat{y}_i}{\partial z^{(3)}_i} \frac{\partial z^{(3)}_i}{\partial w^{(2)}_{ij}}=(\hat{y}_j-y_j) \cdot a^{(2)}_i$

令 $\delta^{(3)}_j=\hat{y}_j-y_j$ 表示输出层节点的偏差值

则上式可写成：

$\frac{\partial CE}{\partial w^{(2)}_{ij}} =\delta^{(3)}_j \cdot a^{(2)}_i$

如何理解？用表示为隐藏层节点的位置，表示为输出层节点的位置，那么权重 $w^{(2)}_{ij}$ 的导数为该权重前一层第i个节点的激活值与后一层第j个节点的偏差值的乘积。

下图是反向传播的示意图，损失函数产生的偏差顺着红线一直往左边传，每通过一条红线就求一次导数，直到要求的权重也覆盖在红线为止。下图有三条红线，也就是损失函数对 $w^{(2)}_{21}$ 的导数须要用三个偏导数乘积造成的链式求导才能获得，且最后一个偏导数值为 $a^{(2)}_i$ 。

如何计算 $w^{(1)}_{ij}$ 呢？继续使用链式法则 + 依葫芦画瓢可得：

$\frac{\partial CE}{\partial w^{(1)}_{ij}} =\sum_{k=1}^2((\hat{y}_k-y_k)w^{(2)}_{jk}) \cdot a^{(2)}_j(1-a^{(2)}_j) \cdot a^{(1)}_i$

令 $\delta^{(2)}_j = \sum_{k=1}^2(\hat{y}_k-y_k)w^{(2)}_{jk} \cdot a^{(2)}_j(1-a^{(2)}_j)$ 为 $a^{(2)}_j$ 的偏差值 ，那么上式能够写成：

$\frac{\partial CE}{\partial w^{(1)}_{ij}} =\delta^{(2)}_j \cdot a^{(1)}_i$

观察能够发现：

$\delta^{(2)}_j=\sum_{k=1}^2(\delta^{(3)}_jw^{(2)}_{jk}) \cdot a^{(2)}_j(1-a^{(2)}_j)$

如何理解？若是用表示输入层节点位置，表示隐藏层节点位置，那么权重 $w^{(1)}_{ij}$ 的导数为 该权重前一层第i个节点的激活值与后一层第j个节点的偏差值的乘积 。每一个节点的偏差值等于链接权重与权重另外一端所连节点的偏差值的乘积之和与本节点激活值的导数的乘积。

详细的推导过程读者能够本身琢磨一下，这里有个关键点须要注意：

由于， $\hat{y}_1+\hat{y}_2=1$ ，因此 $CE =-(y_2ln\hat{y}_2+(1-y_2)ln(1-\hat{y}_2))$

偏置的导数

如何求 $b^{(2)}_j$ 的导数？根据以前的逻辑推导便可：

$\frac{\partial CE}{\partial b^{(2)}_j} = \frac{\partial CE}{\partial \hat{y_i}} \frac{\partial \hat{y}_i}{\partial z^{(3)}_i} \frac{\partial z^{(3)}_i}{\partial b^{(2)}_j}=(\hat{y}_j-y_j) \cdot 1$

如何求 $b^{(1)}_j$ 的导数？链条太长，这里直接给出答案：

$\frac{\partial CE}{\partial b^{(1)}_j}=\sum_{k=1}^2((\hat{y}_k-y_k)w^{(2)}_{jk}) \cdot a^{(2)}_j(1-a^{(2)}_j) \cdot 1$

与权重导数不一样的地方就是，在求导过程当中的最后一项 $\frac{\partial z^{(l + 1)}_i}{\partial b^{(l)}_j} =1$ 。

若是加入偏置单元，也能够理解为偏置单元 $a^{(l)}_0$ 的值为1，以下图所示：

正则化项

正则化（regularation）是防止机器学习过拟合的一种手段。一种常见的手段是经过将权重的平方之和加入到损失函数来实现。那么损失函数变为：

$CE=-\sum_{j=1}^{2}y_jln\hat{y}_j+\frac{\lambda}{2}\sum_l\sum_i\sum_j(w^{(l)}_{ij})^2$

全部权重、偏置之和称为 正则项 ， $\lambda$ 是 正则项系数，也叫 惩罚系数 。

加入正则化项后，的导数要多算一个平方项的导数，以 $w^{(2)}_{ij}$ 为例

$grad(w^{(2)}_{ij})=(\hat{y}_j-y_j) \cdot a^{(2)}_i+\lambda w^{(2)}_{ij}$

向量化

咱们假设输入值、实际值都是列向量。

观察 $z^{(2)}_1$ 、 $z^{(2)}_2$ 的表达式，进而发现能够用矩阵形式书写为：

$\left[\begin{matrix} w^{(1)}_{11} & w^{(1)}_{12} \\ w^{(1)}_{21} & w^{(1)}_{22} \\ w^{(1)}_{31} & w^{(1)}_{32} \end{matrix} \right]^T \left[ \begin{matrix} a^{(1)}_1 \\ a^{(1)}_2 \\ a^{(1)}_3 \end{matrix} \right] + \left[\begin{matrix} b^{(1)}_1 \\ b^{(1)}_2 \end{matrix} \right]= \left[\begin{matrix} z^{(2)}_1 \\ z^{(2)}_2 \end{matrix} \right]$

不失通常性，设第层的前向传播： $z^{(l+1)}=(w^{(l)})^Ta^{(l)}+b^{(l)}$ ，其中 $a^{(l)}$ 、 $z^{(l+1)}$ 、 $b^{(l)}$ 均为列向量， $W^{(l)}$ 为矩阵

激活值 $a^{(l)}=sigmoid(z^{(l)})$ ，因此激活值也是列向量。

损失函数向量化为：

$CE=-\left[\begin{matrix} y_1 \\ y_2 \end{matrix} \right]^T ln\left[\begin{matrix} \hat{y}_1 \\ \hat{y}_2 \end{matrix} \right] + \lambda(\sum_l\sum_i\sum_jw^{(l)}_{ij}+\sum_l\sum_ib^{(l)}_i)$

$=-y^Tln\hat{y}+\frac{\lambda}{2}\sum_{l=1}^2 sum(w^{(l)}*w^{(l)})$

$sum(\cdot)$ 表示把矩阵 $\cdot$ 的全部元素之和

* 表示求哈达马积，即两个矩阵对应位置的元素的乘积所造成的一个新矩阵

输出层偏差值向量化：

$\delta^{(3)}= \left[\begin{matrix} \delta^{(3)}_1 \\ \delta^{(3)}_2 \end{matrix} \right]=\left[\begin{matrix} \hat{y}_1-y_1 \\ \hat{y}_2-y_2\end{matrix} \right] =\hat{y}-y$

隐藏层偏差向量化：

$\delta^{(2)}= \left[\begin{matrix} (\hat{y}_1-y_1)w^{(2)}_{11}+ (\hat{y}_2-y_2)w^{(2)}_{12} \\ (\hat{y}_1-y_1)w^{(2)}_{21}+ (\hat{y}_2-y_2)w^{(2)}_{22} \end{matrix} \right] * a^{(2)}_j(1-a^{(2)}_j)$

$=\left[\begin{matrix} w^{(2)}_{11} & w^{(2)}_{12} \\ w^{(2)}_{21} & w^{(2)}_{22} \end{matrix} \right] \left[\begin{matrix} \hat{y}_1-y_1 \\ \hat{y}_2-y_2\end{matrix} \right] * a^{(2)}_j(1-a^{(2)}_j)$

$=w^{(2)}(\hat{y}-y) * a^{(2)}_j(1-a^{(2)}_j)$

参数 $w^{(2)}$ 导数向量化：

$grad(w^{(2)})= grad(\left[\begin{matrix} w^{(2)}_{11} & w^{(2)}_{12} \\ w^{(2)}_{21} & w^{(2)}_{22} \end{matrix} \right]) = \left[\begin{matrix} \delta^{(3)}_1a^{(2)}_1 & \delta^{(3)}_2a^{(2)}_1 \\ \delta^{(3)}_1a^{(2)}_2 & \delta^{(3)}_2a^{(2)}_2 \end{matrix} \right]$

$=\left[\begin{matrix} a^{(2)}_1 \\ a^{(2)}_2 \end{matrix} \right] \left[\begin{matrix} \delta^{(3)}_1 \\ \delta^{(3)}_2 \end{matrix} \right]^T =a^{(2)}(\delta^{(3)})^T$

不失通常性，有： $grad(w^{(l)})=a^{(l)}(\delta^{(l+1)})^T$

小批量梯度降低

上述全部过程都是假设只有一个样本。

当参与计算的样本数量大于1时：

单个损失函数 => 全部样本损失值求平均
单个样本的输出层偏差 => 全部样本输出层偏差求平均

你不用写一个for循环来计算上述值，使用矩阵乘法会更为方便，这里留给读者思考。

实现

github：github.com/JerryCheese…

ann.py 是面向过程版本实现，且隐藏层数只能为1。

NN.py 是面向对象版本实现，支持多层隐藏层。