深度学习_深度学习基础知识_Gradient Clipping公式解释

啥也不说直接上公式: 先求出梯度g,并设置梯度阈值threshold。我们再求出梯度的L2范数||g||,我们比较||g||和threshold的大小,如果||g||比threshold大,我们接着对梯度进行缩放。我们求出缩放因子: t h r e s h o l d ∣ ∣ g ∣ ∣ \frac{threshold}{||g||} ∣∣g∣∣threshold​,再将它与梯度相乘得到我们最后的
相关文章
相关标签/搜索