几种学习率衰减策略

学习率调整 学习率是神经网络优化时的重要超参数。在梯度下降方法中,学习率α的取值非常关键,如果过大就不会收敛,如果过小则收敛速度太慢。常用的学习率调整方法包括学习率衰减率、学习率预热、周期学习率以及一些自适应地调整学习率的方法,比如AdaGrad、RMSprop、AdaDelta等。自适应学习率方法可以针对每个参数设置不同的学习率。 周期性学习率调整 为了使得梯度下降方法能够逃离局部最小值或鞍点,
相关文章
相关标签/搜索