加速梯度下降的技巧

在用梯度下降的方法训练神经网络时,如果误差曲面本身并不是凸的,那么这个曲面可能包含许多独立于全局最小值的局部最小值,很有可能在局部最小值时训练就停止了,造成结果不佳。另外,即便我们的网络达到了全局最小值也有可能出现过拟合,不能保证模型有很好的泛化性能。下面介绍几种梯度下降的方法。 1.随机和小批量随机梯度下降 标准的梯度下降每次迭代更新所有的训练数据的子集,SGD是每一次迭代中使用每个样本更新一次
相关文章
相关标签/搜索