深度学习优化算法——彻底搞懂Momentum

目录 一、SGD的遇到的问题 二、指数加权移动平均值 三、Momentum 一、SGD的遇到的问题 在深度学习中,通常采用SGD来作为优化算法来更新参数。因为传统的梯度下降算法每更新一次,都要计算所有的样本,浪费时间,而SGD每次迭代使用一个样本来对参数进行更新,使得训练速度加快。 而SGD会陷入局部最优解 由于局部最优解的梯度值也为0,而且SGD只考虑当前时刻的梯度,当前时刻的梯度为0时,就会停
相关文章
相关标签/搜索