深度模型中relu激活函数的不足,batch normalization怎么解决梯度消失爆炸的数值问题

目录 1.relu激活函数 提出的原因: Relu = max(x, 0)的思想: relu的主要贡献在于: 存在的一些缺点: 2.针对relu的一个不足:输出不是以0为中心,如何解决 3 batch normalization 3.1 BatchNorm的作用是什么呢? 3.2 为什么神经网络在训练开始之前,要对输入的数据做Normalization? 3.3 BatchNorm要解决什么问题?
相关文章
相关标签/搜索