李宏毅机器学习笔记2:Gradient Descent

梯度下降 求θ1, θ2使损失函数最小。 梯度下降方向:沿着等高线的法线方向。 梯度下降要点 1. 调整你的学习率 使损失函数越来越小 Adaptive Learning Rates 2.Adaptive Learning Rates 2.1 Adagrad 等价于 因为: (所有导数的平方的均值,再开根号) 造成反差的效果 2.2 Stochastic Gradient Descent 一次只使
相关文章
相关标签/搜索