理解深度学习中的学习率及多种选择策略

学习率是最影响性能的超参数之一,如果我们只能调整一个超参数,那么最好的选择就是它。相比于其它超参数学习率以一种更加复杂的方式控制着模型的有效容量,当学习率最优时,模型的有效容量最大。从手动选择学习率到使用预热机制,本文介绍了很多学习率的选择策略。 这篇文章记录了我对以下问题的理解: 如何系统地获得良好的学习速率? 我们为什么要在训练过程中改变学习速率? 当使用预训练模型时,我们该如何解决学习速率的
相关文章
相关标签/搜索