[李宏毅-机器学习]梯度下降Graident Descent

  AdaGrad 每个参数都有自己的learning rate 梯度下降最好是一步到达local minim 所以最好的step是一阶导数/二阶导数 adagrad就是使用原来所有的微分平方和代替二次微分,能够减少二次微分计算量 ???为什么可以这么做?还不是很懂 如何代替   随机梯度下降Stochastic Gradient descent 随机选取一个样本,进行gradient desce
相关文章
相关标签/搜索