随机梯度下降(SGD)与经典的梯度下降法的区别

随机梯度下降(SGD)与经典的梯度下降法的区别 经典的优化方法,例如梯度下降法,在每次迭代过程中需要使用所有的训练数据,这就给求解大规模数据优化问题带来挑战。 知识点:随机梯度下降法(SGD)、小批量梯度下降法。 在机器学习中,目标函数通常可以表示成为如下形式: 而经典的梯度下降法采用所有的训练数据的平均损失来近似目标函数。其中M是训练样本的个数。 模型参数的更新公式为: 因此,经典的梯度下降法在
相关文章
相关标签/搜索