梯度消失和梯度爆炸原因及其解决方案

当我们需要解决一个非常复杂的问题,例如在高分辨率图像中检测数百种类型的对象,我们可能需要训练一个非常深的DNN,可能需要几十层或者上百层,每层包含数百个神经元,通过成千上万个连接进行连接,我们会遇到以下问题: 首先,梯度消失或梯度爆炸 其次,训练缓慢 第三,训练参数大于训练集的风险 梯度消失的原因: 生物神经元似乎是用 Sigmoid(S 型)激活函数活动的,因此研究人员在很长一段时间内坚持 Si
相关文章
相关标签/搜索