BatchNormalization的作用

其一,直觉上讲,将所有的x将其变化范围通过归一化从1-1000到一个相似的变化范围,这样可以加快学习速度 其二,在输入的分布不同的情况下,如图 第一个输入全是黑猫,其分布如其上图(左),其学到的决策边界可能是一条直线,用图右边的数据进行测试时就会得到一个预测不准确的结果,而实际上,对于图中的分布,我们想要学到的决策边界应该是如下图所示: 由于输入数据分布的偏好很容易导致学不到上图所示绿色的决策边界
相关文章
相关标签/搜索