DL 中的weight initialization

1. 不能全部初始化为0,这样所有的神经元数据更新都是一样的 2. 那初始化为Small random numbers呢?比如 当网络变深后也会有问题,如果初始的时候W都很小,那么随着深度的增大,每层的layer的output会越来越小, 而因为前向传播是np.sum(W*X),对权重W的导数X*dW有X这一乘积项,因为X很小,这就导致W的权重更新慢(梯度弥散), 而如果把初始权重都设置的比较大的
相关文章
相关标签/搜索