随机梯度下降与动量详解

1. SGD图示 红色表示SGD的收敛路径,棕色表示梯度下降的收敛路径。普通的GD算法就是计算出每一时刻最陡的下降趋势(梯度),SGD在随机挑选某一分量的梯度方向进行收敛,详细解释可继续往下看。 2. SGD公式理解 注:这一部分引用自知乎用户Qi Qi,原回答链接 随机梯度下降主要用来求解类似于如下求和形式的优化问题: f(x)=∑i=1nfi(w,xi,yi) f ( x ) = ∑ i =
相关文章
相关标签/搜索