李宏毅机器学习笔记2：Gradient Descent

时间 2020-12-29

原文原文链接

梯度下降求θ1, θ2使损失函数最小。梯度下降方向：沿着等高线的法线方向。梯度下降要点 1. 调整你的学习率使损失函数越来越小 Adaptive Learning Rates 2.Adaptive Learning Rates 2.1 Adagrad 等价于因为：（所有导数的平方的均值，再开根号）造成反差的效果 2.2 Stochastic Gradient Descent 一次只使