梯度下降法及其python实现

梯度下降 假设函数 损失函数 (这里的1/2是为了后面求导计算方便) 1.批量梯度下降(BGD) 每次参数更新的伪代码如下: 由上图更新公式我们就可以看到,我们每一次的参数更新都用到了所有的训练数据(比如有m个,就用到了m个),如果训练数据非常多的话,是非常耗时的。 下面给出批量梯度下降的收敛图: 从图中,我们可以得到BGD迭代的次数相对较少。 2.随机梯度下降法(SGD) 由于批梯度下降每跟新一
相关文章
相关标签/搜索