Batch Norm

文中图片均出自本人之手,做的相当凑合 我们都知道在一个如下图的单元中 将x1、x2、x3减去均值除以方差也就是使输入数据的均值为0方差为1,可以加快该网络的训练速度。 如果是在如下图的深层网络中呢? 将输入值x1、x2、x3进行归一化操作之后只是加快了第一层网络的速度,并不能对后边的n层网络产生影响,这时我们应该怎么办呢。 简单来说就是将每一层前的输入包括输入层的x和隐藏层的a均进行减去均值除以方
相关文章
相关标签/搜索