机器学习与Deep Learning算法问题汇总(Part-2)

7. 什么是梯度弥散?要怎么去解决这个问题? 答: 随着网络层数变深, activations倾向于越大和越小的方向前进, 往大走梯度爆炸(回想一下你在求梯度时, 每反向传播一层, 都要乘以这一层的activations), 往小走进入死区, 梯度消失。 这两个问题最大的影响是, 深层网络难于converge。sigmoid不存在梯度爆炸, 在activations往越大越小的方向上前进时, 梯度
相关文章
相关标签/搜索