【ML】梯度下降、随机梯度下降与批梯度下降算法之间的比较

这三种算法都用于反向传播的优化损失函数算法。在每轮迭代中更新一次权重w,根据多次迭代,最终无限的靠近我们预期的权重最优值。batch GD, mini-batch GD, SGD都可以看成SGD的范畴, 只不过区别在于每次取多少的样本了。 1. 梯度下降算法: 主要优点:梯度更新准确 (1) 如果数据集比较小,完全可以采用全数据集(Full Batch Learning)的形式,采用全数据有两个好
相关文章
相关标签/搜索