深度学习笔记:优化算法

1、mini batch梯度下降 传统的batch梯度下降是把所有样本向量化成一个矩阵,每一次iteration遍历所有样本,进行一次参数更新,这样做每一次迭代的计算量大,要计算所有样本,速度慢,但是收敛可以比较直接地收敛到cost function的最小值。 随机梯度下降(stochastic gradient descent)是每次迭代以一个样本为输入,这种方法每次迭代更新参数时,参数不一定是
相关文章
相关标签/搜索