为何会出现Batch Normalization层

训练模型时的收敛速度问题 众所周知,模型训练须要使用高性能的GPU,还要花费大量的训练时间。除了数据量大及模型复杂等硬性因素外,数据分布的不断变化使得咱们必须使用较小的学习率、较好的权重初值和不容易饱和的激活函数(如sigmoid,正负两边都会饱和)来训练模型。这样速度天然就慢了下来。html 下面先简单示例一下数据分布的不断变化为何会带来这些问题,如图: 咱们使用Wx+b=0对小黄和小绿进行分类
相关文章
相关标签/搜索