梯度下降(Gradient Descent)

分别求解损失函数L(w,b)对w和b的偏导数,对于w,当偏导数绝对值较大时,w取值移动较大,反之较小,通过不断迭代,在偏导数绝对值接近于0时,移动值也趋近于0,相应的最小值被找到。 η选取一个常数参数,前面的负号表示偏导数为负数时(即梯度下降时),w向增大的地方移动。 对于非单调函数,可能会陷入局部最优的情况,可以通过设定不同的w初始值,来对比不同参数下的损失函数值。梯度下降法未必是最优的计算权重
相关文章
相关标签/搜索