梯度下降的算法笔记

SGD SGD是最传统的梯度下降方法. 我们设需要优化的参数是 θ , θt 表示第 t 个时刻参数 θ 的值. 设输入是 x ,要优化的目标函数是 f(x) . gtΔθt==∇θt−1f(x,θt−1)−η∗gt 其中, η 是全局学习率. Momentum Momentum这种方法引入了动量的概念,除了当前得到的梯度,算法还会考虑上一次的梯度. mtΔθt==μ∗mt−1+gt−η∗mt 其
相关文章
相关标签/搜索