李宏毅深度学习笔记第二集(一)Adagrad

引出Adagrad 在使用梯度下降来求取合适的预测函数的参数的时候我们要设置合适的学习率(learning rate) η \eta η。 η \eta η的取值过大的话会使得每次步子太大,从而导致损失函数(loss function)不能达到最小值,甚至有可能越来越大;而 η \eta η的取值过小的话会导致梯度下降的速度太慢很费时间。因为刚开始进行梯度下降的时候我们所选择的参数的初始值会使得损
相关文章
相关标签/搜索