Batch Normalization

出自论文: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Introduction 随机梯度下降法(SGD)在很多模型上都取得了很不错的效果,尤其是结合了mini-batch之后,一方面计算效率更高,另一方面梯度估计的更加准确。然而,SGD对模型的超参数十分敏
相关文章
相关标签/搜索