部分主流优化函数讲解(SGD,AdaGrad,RMSProp,Adam)

部分主流优化函数讲解(SGD,AdaGrad,RMSProp,Adam) 参考自(https://blog.csdn.net/weixin_42398658/article/details/84525917) 之所以出现了这么多的优化函数就是因为病态曲率的存在,也就是梯度下降容易进入鞍点。 这样的话我们就很容易想到牛顿法了,一阶导数指出的是运动方向的问题,二阶导数指出的就是加速度的问题。但是由于牛
相关文章
相关标签/搜索