2.9 学习率衰减-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

学习率衰减 (Learning Rate Decay) 加快学习算法的一个办法就是随时间慢慢减少学习率,我们将之称为学习率衰减,我们来看看如何做到,首先通过一个例子看看,为什么要计算学习率衰减。 假设你要使用mini-batch梯度下降法,mini-batch数量不大,大概64或者128个样本,在迭代过程中会有噪音(蓝色线),下降朝向这里的最小值,但是不会精确地收敛,所以你的算法最后在附近摆动,并
相关文章
相关标签/搜索