周志华 机器学习 Day8

我们以上图隐层到输出层的连接权whj为例推导: BP算法基于梯度下降策略,以目标的负梯度方向对参数进行调整,对的误差Ek,给定学习率η,有 往下推导过程详看P103起 Sigmoid函数有一个很好的性质:f'(x)=f(x)(1-f(x)) 一般地,我们把学习率η∈(0,1)设置成0.1,这样不会导致太大容易震荡,太小收敛速度过慢。 误差逆传播算法 一般来说,标准BP算法仅针对单个样例,参数更新非
相关文章
相关标签/搜索