李宏毅Machine Learning学习笔记3 Gradient Descent

时间 2020-12-24

原文原文链接

Home optimization problem θ∗=argminθL(θ) θ ∗ = arg ⁡ min θ L ( θ ) Tip 1: Tuning your Learning rates - 1 small 如果步伐非常小训练的时间会非常长。 - 2 large 如果步伐非常大没有办法走到最低点。会在一个范围震荡 - 3 very large 如果步伐太大 loss很快就飞出去了