李宏毅Machine Learning学习笔记3 Gradient Descent

Home optimization problem θ∗=argminθL(θ) θ ∗ = arg ⁡ min θ L ( θ ) Tip 1: Tuning your Learning rates - 1 small 如果步伐非常小 训练的时间会非常长。 - 2 large 如果步伐非常大 没有办法走到最低点。会在一个范围震荡 - 3 very large 如果步伐太大 loss很快就飞出去了
相关文章
相关标签/搜索