2020李宏毅学习笔记——11.adaptive learning rate

第二种办法 adaptive learning rate(在train data上训练结果不好) 1.比如,adagrad 计算方法: 每个parameter都有不同的learning rate。用固定的learning rate n除以过去的所有gradient descent的平方值和,并开根号。 一个经验: 如果考虑两个参数w1,w2。若图中w1在‘’横方向‘’(等值线浓密)上变化比较平坦,
相关文章
相关标签/搜索