《动手学深度学习》第三十二天---动量法

在梯度降低中可能存在的问题是,学习率过大,会致使不收敛。回顾一下咱们使用近似的前提是:找到一个常数η(学习率)>0,使得|??′(?)|足够小,而后经过 来迭代x,从让f(x)不断降低。可是当咱们使用过大的学习率时,|??′(?)|可能会过大从而使一阶泰勒展开再也不成立,这个时候没法保证迭代?会下降?(?)的值,那么x就有可能越过最优解而逐渐发散。 在一个二维向量的目标函数中,就可能出如今相同的学
相关文章
相关标签/搜索