002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

参考 http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML2020/Optimization.pdf 变量解释 目标:寻找使损失函 L ( θ ) L(\theta) L(θ)数最小的模型参数 θ \theta θ 模型参数 θ \theta θ、损失函数 L ( θ ) L(\theta) L(θ)、动量 m m m SGD(Stochastic grad
相关文章
相关标签/搜索