深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)

  标准梯度下降法: 汇总所有样本的总误差,然后根据总误差更新权值   SGD随机梯度下降: mini  batch代替全部样本 曲面的某个方向更加陡峭的时候会被困住 Xt+1=Xt-α Δf(x1) 随机抽取一个样本误差,然后更新权值 (每个样本都更新一次权值,可能造成的误差比较大)   批量梯度下降法:相当于前两种的折中方案,抽取一个批次的样本计算总误差,比如总样本有10000个,可以抽取10
相关文章
相关标签/搜索