《动手学深度学习》第三十二天---动量法

时间 2020-06-08

标签动手学深度学习第三十二天 2天动量繁體版

原文原文链接

在梯度降低中可能存在的问题是，学习率过大，会致使不收敛。回顾一下咱们使用近似的前提是：找到一个常数η（学习率）＞0，使得|??′(?)|足够小，而后经过来迭代x，从让f(x)不断降低。可是当咱们使用过大的学习率时，|??′(?)|可能会过大从而使一阶泰勒展开再也不成立，这个时候没法保证迭代?会下降?(?)的值，那么x就有可能越过最优解而逐渐发散。在一个二维向量的目标函数中，就可能出如今相同的学

>>阅读原文<<