【1708.07120】“超级收敛“：使用很大的学习率让残差网络迅速收敛

时间 2020-12-24

原文原文链接

模型训练的收敛速度由什么决定？学习率？还是参数平面的光滑程度（参数数量，层的连接等）？数据集（若是分类模型，则看各个类别的差异大不大）？典型的学习率调整策略为给定一个最小和最大学习率，然后以learning rates change linearly的策略调整，从最大学习率慢慢靠近最小学习率。有人对各种调整策略做了比较，发现结果并没有什么明显差异，就选择了最简单的线性调整方法。本文发现，刚开始

>>阅读原文<<

1. K-Means算法的收敛性和如何快速收敛超大的KMeans？
2. 一致收敛与点态收敛
3. STP的收敛
4. ReZero：使用加权残差连接加速深度模型收敛
5. 8.2 STP：RSTP收敛
6. 常见收敛级数
7. 神经网络不收敛的缘由
8. 模型的学习率(learning rate)太高将使网络无法收敛!
9. Prometheus 告警收敛
10. Kmeans 算法收敛
更多相关文章...
• Lua 垃圾回收 - Lua 教程
• Redis的超时命令和垃圾回收策略 - Redis教程
• 适用于PHP初学者的学习线路和建议
• 使用Rxjava计算圆周率