minibatch

时间 2020-12-24

原文原文链接

转自：https://testerhome.com/topics/10877 回顾之前我们讲到了一些在训练模型的时候用到的超参数，例如上一次说的L2 正则，在过拟合的场景中增加L2的值有助于减小网络的复杂度。还有诸如学习率，在梯度下降中，每一次迭代的下降的步长是学习率乘以成本函数对w的导数。所以如果我们想让算法训练的快一点，调高学习率可以有效的减少迭代次数。诸如此类的还有迭代次数，激活函