http://www.cnblogs.com/python27/p/MachineLearningWeek05.htm

这一章多是Andrew Ng讲得最不清楚的一章，为何这么说呢？这一章主要讲后向传播(Backpropagration, BP)算法，Ng花了一大半的时间在讲如何计算偏差项html

简单神经网络的后向传播（Backpropagration, BP）算法

1. 回顾以前的前向传播(ForwardPropagration, FP)算法

FP算法仍是很简单的，说白了就是根据前一层神经元的值，先加权而后取sigmoid函数获得后一层神经元的值，写成数学的形式就是:python

a (1) = X

z (2) = Θ (1) a (1)

a (2) = g (z (2))

z (3) = Θ (2) a (2)

a (3) = g (z (3))

z (4) = Θ (3) a (3)

a (4) = g (z (4))

2. 回顾神经网络的代价函数(不含regularization项)

web

3. 一个简单神经网络的BP推导过程

BP算法解决了什么问题？咱们已经有了代价函数算法

下面咱们从一个简单的例子入手考虑如何从数学上计算代价函数的梯度，考虑以下简单的神经网络（为方便起见，途中已经给出了前向传播（FP）的计算过程），该神经网络有三层神经元，对应的有两个权重矩阵网络

首先咱们先计算第2个权重矩阵的偏导数，即数据结构

按照求导的链式法则，咱们能够先求函数

\partial \partial Θ ( 2 ) J ( Θ ) = \partial \partial z ( 3 ) J ( Θ ) \times \partial z ( 3 ) \partial

由post

\partial \partial Θ ( 2 ) J ( Θ ) = δ ( 3 ) ( a ( 2 ) ) T

接下来仅须要计算优化

δ (3) = \partial J ( Θ ) z ( 3 ) = ( - y ) 1

至此咱们已经获得atom

\partial J ( Θ ) \partial Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (3) = a (3) - y

接下来咱们须要求

根据链式求导法则有

\partial J ( Θ ) \partial Θ ( 1 ) = \partial J ( Θ ) \partial z ( 3 ) \partial z

咱们分别计算等式右边的三项可得:

\partial J ( Θ ) \partial z ( 3 ) = δ ( 3 )

\partial z ( 3 ) \partial a ( 2 ) = ( Θ ( 2 ) ) T

\partial a ( 2 ) \partial Θ ( 1 ) = \partial a ( 2 ) \partial z ( 2 ) \partial z

带入后得

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 3 ) ( Θ ( 2 ) ) T

令

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

把上面的结果放在一块儿，咱们获得

δ (3) = a (3) - y

\partial J ( Θ ) \partial Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

观察上面的四个等式，咱们发现

偏导数能够由当前层神经元向量
当前层的偏差向量

因此能够从后往前逐层计算偏差向量（这就是后向传播的来源），而后经过简单的乘法运算获得代价函数对每一层权重矩阵的偏导数。到这里算是终于明白为何要计算偏差向量，以及为何偏差向量之间有递归关系了。尽管这里的神经网络十分简单，推导过程也不是十分严谨，可是经过这个简单的例子，基本可以理解后向传播算法的工做原理了。

严谨的后向传播算法（计算梯度）

假设咱们有

初始化：设置

For i = 1 : m

设置
经过前向传播算法（FP）计算对各层的预测值
计算最后一层的偏差向量
更新

end // for

计算梯度:

D (l) i j = 1 m Δ ( l ) i j , j = 0

D (l) i j = 1 m Δ ( l ) i j + λ Θ ( l ) i j , j \neq 0

\partial J ( Θ ) \partial Θ ( l ) = D ( l )

BP实际运用中的技巧

1. 将参数展开成向量

对于四层三个权重矩阵参数

 
                 thetaVec = [Theta1(:); Theta2(:); Theta3(:)];

2. 梯度检查

为了保证梯度计算的正确性，能够用数值解进行检查，根据导数的定义

d J ( θ ) d θ \approx J ( θ + ϵ ) - J ( θ - ϵ ) 2 ϵ

Matlab Code 以下

 
                 for  
                 i  
                 = 1 : n 
                
                 thetaPlus = theta; 
                
                 thetaPlus( 
                 i 
                 ) = thetaPlus( 
                 i 
                 ) + EPS; 
                
                 thetaMinus = theta; 
                
                 thetaMinus( 
                 i 
                 ) = thetaMinus( 
                 i 
                 ) - EPS; 
                
                 gradApprox( 
                 i 
                 ) = (J(thetaPlus) - J(thetaMinus)) / (2 * EPS); 
                
                 end

最后检查 gradApprox 是否约等于以前计算的梯度值便可。须要注意的是：由于近似的梯度计算代价很大，在梯度检查后记得关闭梯度检查的代码。

3. 随机初始化

初始权重矩阵的初始化应该打破对称性 (symmetry breaking)，避免使用全零矩阵进行初始化。能够采用随机数进行初始化，即

如何训练一个神经网络

随机初始化权重矩阵
利用前向传播算法（FP）计算模型预测值
计算代价函数
利用后向传播算法（BP）计算代价函数的梯度
利用数值算法进行梯度检查(gradient checking)，确保正确后关闭梯度检查
利用梯度降低（或者其余优化算法）求得最优参数

附:一个简短的后向传播教学视频

参考文献

[1] Andrew Ng Coursera 公开课第五周

[2] Derivation of Backpropagation. http://web.cs.swarthmore.edu/~meeden/cs81/s10/BackPropDeriv.pdf

[3] Wikipedia: Backpropagation. https://en.wikipedia.org/wiki/Backpropagation

[4] How the backpropagation algorithm works. http://neuralnetworksanddeeplearning.com/chap2.html

[5] 神经网络和反向传播算法推导. http://www.mamicode.com/info-detail-671452.html

机器学习之反向传播算法