batch size 越大,学习率也要越大

在论文当中 Reducing BERT Pre-training Time from 3 Days to 76 Minutes中提到:如图所示: 结论:batchsize变大,学习率也要相应变大;本质是为了梯度的方差保持不变;  1、为什么要保证梯度的方差不变呢?         个人猜想,是为了解决陷入局部最优和一个sharp 最小值(类似于一个很尖的V底)的问题,增强泛化能力;增加了学习率,就
相关文章
相关标签/搜索