Batch Normalization

时间 2020-12-20

原文原文链接

出自论文： Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Introduction 随机梯度下降法（SGD）在很多模型上都取得了很不错的效果，尤其是结合了mini-batch之后，一方面计算效率更高，另一方面梯度估计的更加准确。然而，SGD对模型的超参数十分敏