给模型热身——深度学习中的warm up

Warm up是BERT 中一项重要的trick,它是什么,它究竟能带给我们什么,以及如何实现。 它是什么 Warm up是一种学习率的设置方法,其学习率的变化如下图所示。 假设我们使用随训练衰减的学习率设置方法,学习率的最大值是 p p p。 在模型训练的前 n n n步进行warm up,第 i i i步的学习率为 i n ⋅ p \frac {i}{n} \cdot p ni​⋅p 它能带给
相关文章
相关标签/搜索