吴恩达深度学习——优化算法

1、mini-batch梯度下降法: mini-batch size=m,就是我们平常用的梯度下降,即batch梯度下降 mini-batch size=1,则为随机梯度下降:每次迭代,只对一个样本进行梯度下降,大部分时间你向着全局最小值靠近,但有时候会远离最小值,因为那个样本恰好指的方向不对,因此随机下降是又很多噪声的。平均看来,它最终会靠近最小值,因为随机下降法永远不会收敛,而是会在最小值附近
相关文章
相关标签/搜索