2.2.6 学习率衰减

学习率衰减 加快神经网络的另一个办法就是随着时间推移慢慢减少学习率。我们将这个称之为学习率衰减。 如图中蓝色线所示,当mini-batch不大的时候,噪声会比较明显。最后不会精确地收敛,而是在最小值附近不断地波动。但是如果我们不断减少学习率,最后情况就如同图中绿线所示,最后会在最小值附近很小的一块区域不断波动,而不会在比较大的区域里。 减小学习率的方法如下: 我们需要在第一代的时候遍历一遍数据,第
相关文章
相关标签/搜索