第四周、梯度,损失函数和优化器

一、梯度消失与爆炸 1.1 梯度 从上图可知,每一网络层输出不能太大或太小,否则会导致梯度爆炸或者梯度消失 对权重W进行处理,使其方差为1/n,则隐藏输出的方差也为1,这样使得经过累乘,依然保持到一个很小的数 1.2 Xavier方法 方差一致性: 保持数据尺度维持在恰当范围,通常方差为1 激活函数: 饱和函数, 如Sigmoid, Tanh 1.3 Kaiming方法 方差一致性:保持数据尺度维
相关文章
相关标签/搜索