pytorch 如何选择合适的学习率(翻译)

1.思想 好的学习率,那么loss应该要下降的很快,那么可以绘制处学习率和loss的函数。 例如: 此时,该如何选学习率呢?选10^-2可以使训练的比较快,并且不会使梯度爆炸, 10^-1可能已经太大了。 2.算法 假设初始lr为10^-8,最大为10,共测试N step,那么我们可以记录每经过一个step的lr和loss,其中,每次lr增加q: loss,把它平滑一下: 实现代码如下: #Com
相关文章
相关标签/搜索