李宏毅机器学习笔记01(梯度下降的一些内容)

在梯度下降中,learning rate是一个挺难选择的点: 选择大一点的学习率:可以快速的下降,但是容易出现降过头的现象。 选择较小的学习率:不容易错过极值点,但是迭代的时间太长。 一种常见的想法:就是想着随着参数调整次数的增多,学习率应该越来越小 a = a/(t+1) t表示迭代的次数; 但是最好的方式是每一个参数对应一个学习率,这样就引出了Adagrad。 adagrad的式子如上。 SG
相关文章
相关标签/搜索