GD参考:算法
https://blog.csdn.net/CharlieLincy/article/details/70767791.net
SGD参考:
https://blog.csdn.net/CharlieLincy/article/details/71082147blog
关于SGD,博主的第二个问题。io
GD 代码:原理
SGD代码:遍历
mini-batch代码:im
一直不明白SGD和GD相比优点到底在哪。看代码每次迭代两个算法都要遍历一次数据集。没啥区别。数据
然而。区别就在一样是一次迭代,遍历一次数据集,SGD更新了m次参数,GD只更新了一次。img
关于这种随机样本更新的原理,以及SGD自动逃避鞍点的优势,有待进一步研究。co
论文待看:Optimization methods for large-scale machine learning.