神经网络训练的一些建议(优化算法)

mini-batch梯度下降法 相信有一定深度学习常识的人都知道梯度下降 使用batch梯度下降法时,每次迭代你都需要历遍整个训练集,可以预期每次迭代成本都会下降,所以如果成本函数J是迭代次数的一个函数,它应该会随着每次迭代而减少,如果J在某次迭代中增加了,那肯定出了问题,也许你的学习率太大。 使用mini-batch梯度下降法,如果你作出成本函数在整个过程中的图,则并不是每次迭代都是下降的,如果
相关文章
相关标签/搜索