深度神经网络（DNN）反向传播算法(BP)

时间 2020-04-28

原文原文链接

　　　　在深度神经网络（DNN）模型与前向传播算法中，咱们对DNN的模型和前向传播算法作了总结，这里咱们更进一步，对DNN的反向传播算法（Back Propagation，BP）作一个总结。html

1. DNN反向传播算法要解决的问题

　　　　在了解DNN的反向传播算法前，咱们先要知道DNN反向传播算法要解决的问题，也就是说，何时咱们须要这个反向传播算法？　算法

　　　　回到咱们监督学习的通常问题，假设咱们有m个训练样本：$\{(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$,其中$x$为输入向量，特征维度为$n\_in$,而$y$为输出向量，特征维度为$n\_out$。咱们须要利用这m个样本训练出一个模型，当有一个新的测试样本$(x_{test},?)$来到时, 咱们能够预测$y_{test}$向量的输出。　网络

　　　　若是咱们采用DNN的模型，即咱们使输入层有$n\_in$个神经元，而输出层有$n\_out$个神经元。再加上一些含有若干神经元的隐藏层。此时咱们须要找到合适的全部隐藏层和输出层对应的线性系数矩阵$W$,偏倚向量$b$,让全部的训练样本输入计算出的输出尽量的等于或很接近样本输出。怎么找到合适的参数呢？机器学习

　　　　若是你们对传统的机器学习的算法优化过程熟悉的话，这里就很容易联想到咱们能够用一个合适的损失函数来度量训练样本的输出损失，接着对这个损失函数进行优化求最小化的极值，对应的一系列线性系数矩阵$W$,偏倚向量$b$即为咱们的最终结果。在DNN中，损失函数优化极值求解的过程最多见的通常是经过梯度降低法来一步步迭代完成的，固然也能够是其余的迭代方法好比牛顿法与拟牛顿法。若是你们对梯度降低法不熟悉，建议先阅读我以前写的梯度降低（Gradient Descent）小结。函数

　　　　对DNN的损失函数用梯度降低法进行迭代优化求极小值的过程即为咱们的反向传播算法。post

　　　　本篇使用了矩阵向量求导，若是你对这一块不熟悉，请先阅读下我写的矩阵向量求导系列文章。学习

2. DNN反向传播算法的基本思路

　　　　在进行DNN反向传播算法前，咱们须要选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问：训练样本计算出的输出是怎么得来的？这个输出是随机选择一系列$W,b$,用咱们上一节的前向传播算法计算出来的。即经过一系列的计算：$a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)$。计算到输出层第$L$层对应的$a^L$即为前向传播算法计算出来的输出。测试

　　　　回到损失函数，DNN可选择的损失函数有很多，为了专一算法，这里咱们使用最多见的均方差来度量损失。即对于每一个样本，咱们指望最小化下式：$$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2$$优化

　　　　其中，$a^L$和$y$为特征维度为$n\_out$的向量,而$||S||_2$为S的L2范数。htm

　　　　损失函数有了，如今咱们开始用梯度降低法迭代求解每一层的$W,b$。

　　　　首先是输出层第$L$层。注意到输出层的$W,b$知足下式：$$a^L = \sigma(z^L) = \sigma(W^La^{L-1} + b^L)$$

　　　　这样对于输出层的参数，咱们的损失函数变为：$$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2 = \frac{1}{2}|| \sigma(W^La^{L-1} + b^L)-y||_2^2$$

　　　　这样求解$W,b$的梯度就简单了：$$\frac{\partial J(W,b,x,y)}{\partial W^L} = [(a^L-y) \odot \sigma^{'}(z^L)](a^{L-1})^T$$$$\frac{\partial J(W,b,x,y)}{\partial b^L} =(a^L-y)\odot \sigma^{'}(z^L)$$

　　　　注意上式中有一个符号$\odot$,它表明Hadamard积，对于两个维度相同的向量$A（a_1,a_2,...a_n）^T$和$B（b_1,b_2,...b_n）^T$,则$A \odot B = (a_1b_1, a_2b_2,...a_nb_n)^T$。

　　　　咱们注意到在求解输出层的$W,b$的时候，有中间依赖部分$\frac{\partial J(W,b,x,y)}{\partial z^L}$，所以咱们能够把公共的部分即对$z^L$先算出来，记为：$$\delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L)$$

　　　　如今咱们终于把输出层的梯度算出来了，那么如何计算上一层$L-1$层的梯度，上上层$L-2$层的梯度呢？这里咱们须要一步步的递推，注意到对于第$l$层的未激活输出$z^l$，它的梯度能够表示为:$$\delta^l =\frac{\partial J(W,b,x,y)}{\partial z^l} = (\frac{\partial z^L}{\partial z^{L-1}}\frac{\partial z^{L-1}}{\partial z^{L-2}}...\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^L}$$

　　　　若是咱们能够依次计算出第$l$层的$\delta^l$,则该层的$W^l,b^l$很容易计算？为何呢？注意到根据前向传播算法，咱们有：$$z^l= W^la^{l-1} + b^l$$

　　　　因此根据上式咱们能够很方便的计算出第l层的$W^l,b^l$的梯度以下：$$\frac{\partial J(W,b,x,y)}{\partial W^l} = \delta^{l}(a^{l-1})^T$$$$\frac{\partial J(W,b,x,y)}{\partial b^l} = \delta^{l}$$

　　　　其中，第一个式子的推导能够参考机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则中第三节的最后一个公式。

　　　　那么如今问题的关键就是要求出$ \delta^{l}$了。这里咱们用数学概括法，第$L$层的$\delta^{L}$上面咱们已经求出，假设第$l+1$层的$\delta^{l+1}$已经求出来了，那么咱们如何求出第$l$层的$\delta^{l}$呢？咱们注意到：$$\delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = (\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} =(\frac{\partial z^{l+1}}{\partial z^{l}})^T \delta^{l+1}$$

　　　　可见，用概括法递推$\delta^{l+1}$和$\delta^{l}$的关键在于求解$\frac{\partial z^{l+1}}{\partial z^{l}}$。

　　　　而$z^{l+1}$和$z^{l}$的关系其实很容易找出：$$z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1} $$

　　　　这样很容易求出：$$\frac{\partial z^{l+1}}{\partial z^{l}} = W^{l+1}diag(\sigma^{'}(z^l))$$

　　　　将上式带入上面$\delta^{l+1}$和$\delta^{l}$关系式咱们获得：$$\delta^{l} = (\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} = diag(\sigma^{'}(z^l))(W^{l+1})^T\delta^{l+1} =(W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$$

　　　　如今咱们获得了$\delta^{l}$的递推关系式，只要求出了某一层的$\delta^{l}$，求解$W^l,b^l$的对应梯度就很简单的。

3. DNN反向传播算法过程

　　　　如今咱们总结下DNN反向传播算法的过程。因为梯度降低法有批量（Batch），小批量(mini-Batch)，随机三个变种，为了简化描述，这里咱们以最基本的批量梯度降低法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度降低法。不过区别仅仅在于迭代时训练样本的选择而已。

　　　　输入: 总层数L，以及各隐藏层与输出层的神经元个数，激活函数，损失函数，迭代步长$\alpha$,最大迭代次数MAX与中止迭代阈值$\epsilon$，输入的m个训练样本$\{(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$

　　　　输出：各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$

　　　　1) 初始化各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$的值为一个随机值。

　　　 2）for iter to 1 to MAX：

　　　　2-1) for i =1 to m：

　　　　　　a) 将DNN输入$a^1$设置为$x_i$

　　　　　　b) for $l$=2 to L，进行前向传播算法计算$a^{i,l} = \sigma(z^{i,l}) = \sigma(W^la^{i,l-1} + b^l)$

　　　　　　c) 经过损失函数计算输出层的$\delta^{i,L}$

　　　　　　d) for $l$= L-1 to 2, 进行反向传播算法计算$\delta^{i,l} = (W^{l+1})^T\delta^{i,l+1}\odot \sigma^{'}(z^{i,l})$

　　　　2-2) for $l$ = 2 to L，更新第$l$层的$W^l,b^l$:$$W^l = W^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}(a^{i, l-1})^T $$$$b^l = b^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}$$

　　　　2-3) 若是全部$W，b$的变化值都小于中止迭代阈值$\epsilon$，则跳出迭代循环到步骤3。

　　　　3）输出各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$。

4. DNN反向传播算法小结

　　　　有了DNN反向传播算法，咱们就能够很方便的用DNN的模型去解决第一节里面提到了各类监督学习的分类回归问题。固然DNN的参数众多，矩阵运算量也很大，直接使用会有各类各样的问题。有哪些问题以及如未尝试解决这些问题并优化DNN模型与算法，咱们在下一篇讲。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

参考资料：

1） Neural Networks and Deep Learning by By Michael Nielsen

2） Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3） UFLDL Tutorial