【1708.07120】“超级收敛“:使用很大的学习率让残差网络迅速收敛

模型训练的收敛速度由什么决定?学习率?还是参数平面的光滑程度(参数数量,层的连接等)?数据集(若是分类模型,则看各个类别的差异大不大)? 典型的学习率调整策略为给定一个最小和最大学习率,然后以learning rates change linearly的策略调整,从最大学习率慢慢靠近最小学习率。有人对各种调整策略做了比较,发现结果并没有什么明显差异,就选择了最简单的线性调整方法。 本文发现,刚开始
相关文章
相关标签/搜索