看了andrew ng 老师的机器学习教程,在关于反向传播算法进行讲解时,微分过程被省略掉了,只是说这个过程很是复杂。网上找了一些资料,有一篇比较详细的讲解,在http://axon.cs.byu.edu/resources/backprop_derived.pdf能够下载。这里也贴出来。微分过程当中记法和andrew ng教程不太同样。不过貌似看着也蛮方便的。第20-24步的过程正好是δ反向传播的过程。算法
注意h(θ)这个假设函数,是关于输入向量的l层复合函数。网络
向量形式大概是这个样子 h(θ) = g(θ2 * g(θ1*xi )),这里是一个三层神经网络的简单示意。其中g表明激活函数,andrew ng的示例使用的是logistic function做为激活函数。i表明输入层向量。θ1和θ2表明第一层和第二层的权重矩阵。n层的时候是相似的复合过程。求偏导的过程实际上是E(h(θ), y)对θij求偏导的过程。机器学习
还有一点区别就是cost函数J(θ) 的选择不太同样,andrew ng采用的是逻辑回归的cost函数,而本文采用的是线性回归的代价函数。函数
andrew ng老师的反向传播δ的计算过程以下:学习
它实际上是20-24步过程的一个向量化的形式。 blog
注意,因为J(θ)的选择本文和andrew ng 不同,输出层的δ计算结果也不同,andrew ng 输出层的δ的结果为上面的δ(4) = a(4) - y。详细的计算过程能够参考一下这个网页。http://mooc.guokr.com/note/16702/。可是第n-1层的δ和第n层的δ关系则是同样的,向量化形式如上面的图所示。教程
下面是详细过程,enjoy it.....get
好吧,说的比较乱,有错误的地方你们不吝指教。it