ICLR2020满分论文 | 为什么梯度裁剪能加速模型训练？

时间 2021-01-01

原文原文链接

一只小狐狸带你解锁炼丹术&NLP 秘籍作者：苏剑林（来自追一科技，人称“苏神”）前言需要许多时间步计算的循环神经网络，如LSTM、GRU，往往存在梯度爆炸的问题。其目标函数可能存在悬崖一样斜率较大的区域，这是由于时间步上几个较大的权重相乘导致的。当参数接近这样的悬崖区域时，如果更新梯度不足够小，很有可能就会直接跳过这样的悬崖结构，然后被弹射到非常远的地方。梯度裁剪（gradient cli

>>阅读原文<<