模型的学习率(learning rate)太高将使网络无法收敛!

时间 2020-12-20

原文原文链接

博主在跑代码的时候，发现过大的Learning rate将导致模型无法收敛。主要原因是过大的learning rate将导致模型的参数迅速震荡到有效范围之外.(注：由于pytorch中已封装好的代码对模型参数的大小设置了一个界限，因此模型参数不会无限大) 这篇文章将要探讨一下不同learning rate的情况下，模型的收敛情况. lr = 0.1，模型收敛得很好。 lr = 0.6，在第8轮