斯坦福CS231n计算机视觉-神经网络参数更新机制

梯度下降法(Gradient descent update,SGD) 最后一行就是梯度下降的公式,只是简单的相乘。 存在问题: 梯度的不连续性会导致参数来回震荡,所以收敛的比较慢。 动量更新(momentum update) 可以看到就是本次更新和上几次的更新还有关系,原来相当于一个没有质量的球滚动,现在考虑了球的质量,有一定的惯性。V一般初始化为0,mu一般为0.5, 0.9, or 0.99,
相关文章
相关标签/搜索