为什么说随机最速下降法(SGD)是一个很好的方法?

最近在看梯度下降算的时候不明白梯度下降算法经常达到局部极小值为什么还要用它,然后就在知乎上看到了这篇文章,将了包括SDG算法的优缺点,我觉得这个是最直接,也是最清晰的解释了,没有之一,好文!!! 地址:https://zhuanlan.zhihu.com/p/27609238 假如我们要优化一个函数 ,即找到它的最小值, 常用的方法叫做Gradient Descent (GD), 也就是最速下降法
相关文章
相关标签/搜索