机器学习优化方案对比

知乎引用 常见的优化算法包括梯度下降法、牛顿法、Momentum、Adagrad、Adam等 SGD   是通过梯度方向和步长,直接求解目标函数的最小值时的参数。 越接近最优值时,步长应该不断减小,否则会在最优值附近来回震荡。 SGD就是每一次迭代计算mini-batch的梯度,然后对参数进行更新,是最常见的优化方法了。即: 优点: 由于每次迭代只使用了一个样本计算梯度,训练速度快; 包含一定随机
相关文章
相关标签/搜索