【深度学习】:梯度下降,随机梯度下降(SGD),和mini-batch梯度下降

一.梯度下降 梯度下降就是最简单的用于神经网络当中用于更新参数的用法,计算loss的公式如下:    有了loss function之后,我们立马通过这个loss求解出梯度,并将梯度用于参数theta的更新,如下所示:    这样做之后,我们只需要遍历所有的样本,就可以得到一个最终的参数theta了,这个参数可能是全局最小值,也可能不是,因为很有可能走入了一个loss的局部最小值当中。 二.随机梯
相关文章
相关标签/搜索