深度学习激活函数和优化函数总结

时间 2021-01-15

原文原文链接

1、SGD,Momentum,Adagard,Adam原理？【第一张图为不同算法在损失平面等高线上随时间的变化情况】【第二张图为不同算法在鞍点处的行为比较。】 SGD(Stochastic Gradient Descent )(随机梯度下降) 【意义】单纯的梯度计算容易得到局部最优解，这个时候引入随机变量能很好的在保证梯度下降大体方向情况下得到最优解。也就是说，虽然包含一定的随机性，但是从期望