卷积神经网络(CNN)介绍05-优化器

常见优化器介绍 Batch Gradient Descent(BGD) ★ 梯度更新规则: BGD 采用整个训练集的数据来计算 cost function 对参数的梯度。 ★ 缺点: 由于这种方法是在一次更新中,就对整个数据集计算梯度,所以计算起来非常慢,遇到很大量的数据集也会非常棘手,而且不能投入新数据实时更新模型。 Batch gradient descent 对于凸函数可以收敛到全局极小值,
相关文章
相关标签/搜索