TensorFlow2.0学习笔记---学习率衰减

在梯度下降的时候,如果学习率learning rate 太低会导致梯度更新次数很多次才能到最低点(图一) 学习率learning rate 太高会导致梯度更新时一直震荡不能到最低点   学习率衰减 学习率在梯度下降时一开始可以大,但是后面要慢慢变小,在尽可能短的时间内达到最小点。
相关文章
相关标签/搜索