从Gradient Descent 到 Stochastic Gradient Descent(SGD)

​ 目标是调节每一个 θ \theta θ让 L ( θ ) L(\theta) L(θ)最小. Gradient Descent 每次调整 θ \theta θ时会加上(减去)一个最大的变化率(梯度)乘以一个变换量(学习率),使得 θ \theta θ会尽快地进入一个平滑地带,也就是我们想要得到的那个极值. 可是如果n为全样本数的话,像阿里数据库里面有上亿的样本数据,最后的计算可能是一个无法完成
相关文章
相关标签/搜索