NN学习技巧之参数最优化的四种方法对比(SGD, Momentum, AdaGrad, Adam),基于MNIST数据集

前面几篇博文分析了每一种参数优化方案,如今作一个对比,代码参考斋藤的红鱼书第六章。web 实验对mnist数据集的6万张图片训练,使用5层全链接神经网络(4个隐藏层,每一个隐藏层有100个神经元),共迭代2000次,下图是损失函数随着训练迭代次数的变化:shell 能够看到SGD是最慢的,而AdaGrad最快, 且最终的识别精度也更高,这并非必定的,跟数据也有关 贴出部分迭代过程变化:网络 ===
相关文章
相关标签/搜索