李宏毅深度学习笔记1-4Gradient Descent

1、梯度下降的步骤 选择初始点,求偏微分,按梯度下降公式和学习率移动点。最终到达最低点。梯度也可以理解为等高线的法线方向,但是梯度下降取的是梯度的相反方向。 2、学习率的大小对算法的影响 学习率过大会在最低点附近震荡,甚至直接越过最低点,学习率太低,移动速度会很慢,要调整学习率,使得Loss function下降的最快 3、学习率的调整方法 1)随着参数的更新,学习率不断变小,并将参数的学习率分开
相关文章
相关标签/搜索