常见梯度下降法

(学习cs231n的笔记,图片就直接偷懒贴了视频的截图,见谅) 一、最常见的三种梯度下降法: 批量梯度下降(BGD Batch gradient descent) BGD 采用整个训练集的数据来计算 cost function 对参数的梯度 缺点:就对整个数据集计算梯度,所以计算起来非常慢 随机梯度下降(SGD stochastic gradient descent) 每次更新时对每个样本进行梯度
相关文章
相关标签/搜索