Day9 深度学习入门

参数的更新 神经网络学习的目的是找到使损失函数的值尽可能小的参数。常见的有以下四种: SGD(stochastic gradient descent)、Momentum、AdaGrad、Adam。 Adam论文 这四种方法并不存在能在所有问题中都表现良好的方法,都有各自擅长和不擅长解决的问题。SGD受具体问题(函数形状)的限制,负梯度方向不一定始终指向最优值。所以后三种都是对其的一种改进(下图表示
相关文章
相关标签/搜索