李宏毅《机器学习》笔记-4. Gradient Descent

关于梯度下降的一下技巧 1. 调整学习率 若学习率太大,可能会错过最小值;若学习率太小,有可能收敛速度太慢。 可变学习率 为了让梯度下降可以收敛到最小值,一般来说学习率要跟随迭代次数变小。一种常见的做法是让 η t = η / t + 1 \eta^{t}={\eta} / {\sqrt{t+1}} ηt=η/t+1 ​ Adagrad Adagrad 是一种常用的可变学习率的做法,它还考虑了历史
相关文章
相关标签/搜索