李宏毅机器学习——学习笔记(一)

Gradient Descent 学习率会出现以下四种不同的情况: 学习率太小,即图中蓝色的线,每次跨越的步长很小很小,梯度每次变化的值也小,模型要达到local minima,就必须需要更多的训练时间; 学习率太大,即图中绿色的线,每次跨越的步长会很大,很可能形成在山谷之间震荡的现象; 学习率特别大,即图中黄色的线,就很可能会直接跳出local minima,loss会越来越大; 学习率刚好合适
相关文章
相关标签/搜索