训练过程--梯度降低算法(SGD、adam等)

SGD系列 1)Batch gradient descent(批量梯度降低)   在整个数据集上   每更新一次权重,要遍历全部的样本,因为样本集过大,没法保存在内存中,没法线上更新模型。对于损失函数的凸曲面,能够收敛到全局最小值,对于非凸曲面,收敛到局部最小值。   随机梯度降低(SGD)和批量梯度降低(BGD)的区别。SGD 从数据集中拿出一个样本,并计算相关的偏差梯度,而批量梯度降低使用全部
相关文章
相关标签/搜索