深度学习笔记(2):2.9 学习率衰减 | 2.10 局部最优问题

2.9 学习率衰减 今天来讲一下关于学习率衰减(learning rate decay)的问题。首先说一下为什么要衰减学习率,如下图所示: 假设我们使用mini-batch梯度下降法,之前我们已经讲过它的一些特点,比如路径曲折不直接、有噪音(路径曲折不直接和有噪音是一回事)、在最优值附近波动不收敛。也许在刚开始学习时,我们可以承受较大的步长带来的代价,但是随着不断学习至开始收敛时,通过慢慢的减少学
相关文章
相关标签/搜索