机器学习常见优化方法(Optimizer)SGD,Momentum,Adagard,Adam原理

SGD为随机梯度下降 每次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。 Momentum:“冲量” 这个概念源自于物理中的力学,表示力对时间的积累效应。 参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。 Adagard:(adaptive gradient)自适应梯度算法,是一种改进的随机梯度下降算法 在训练的过程中可
相关文章
相关标签/搜索