目录算法
1、BP原理及求导网络
2、softmax及求导函数
1、BP学习
一、为何沿梯度方向是上升最快方向spa
根据泰勒公式对f(x)在x0处展开,获得f(x) ~ f(x0) + f'(x0)(x-x0), 故获得f(x) - f(x0) ~ f'(x0)(x-x0), 因此从x0出发,变化最快,即便f(x)-f(x0)最大,也就f'(x0)(x-x0),因为f'(x0)与(x-x0)均为向量(如今x0取的是一个数,若是放在多维坐标那么x0就是一个多维向量),由余弦定理f'(x0) 与(x-x0)方向相同时,点积最大,故梯度方向是上升最快方向。3d
二、什么是BPblog
梯度反向传播(back propagation)过程就是: 由前馈神经网络获得损失函数,而后根据损失函数后向地更新每一层的权重,目的就是让损失函数变小get
三、BP的优点博客
四、BP的不足io
2、softmax函数及求导
一、softmax函数
在Logistic regression二分类问题中,咱们能够使用sigmoid函数将输入映射到
区间中,从而获得属于某个类别的几率。将这个问题进行泛化,推广到多分类问题中,咱们能够使用softmax函数,对输出的值归一化为几率值。
这里假设在进入softmax函数以前,已经有模型输出值,其中
是要预测的类别数,模型能够是全链接网络的输出
,其输出个数为
,即输出为
。
因此对每一个样本,它属于类别的几率为:
经过上式能够保证 ,即属于各个类别的几率和为1。
二、求导
对softmax函数进行求导,即求
第项的输出对第
项输入的偏导。
代入softmax函数表达式,能够获得:
因此,当时:
当时:
LOSS 求导
对一个样原本说,真实类标签分布与模型预测的类标签分布能够用交叉熵来表示:
最终,对全部的样本,咱们有如下loss function:
其中是样本
属于类别
的几率,
是模型对样本
预测为属于类别
的几率。
对单个样原本说,loss function对输入
的导数为:
上面对求导结果已经算出:
当时:
当时:
因此,将求导结果代入上式
参考博客: