Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift论文翻译

Internal Covariate Shift: 1)定义:训练时,上一层的参数的更新改变后,下一层的输入的分布就会变化,使训练变得复杂。 2)缺点: 1.学习率不能太高(参数不能变化太剧烈),进而导致训练缓慢 2.层参数初始化必须细致 3.使用饱和非线性激活函数(如sigmoid,正负两边都会饱和)的训练很困难 3)解决方法: 归一化输入层 mini-batch: 1)优点:简单高效,训练集的
相关文章
相关标签/搜索