Deep learning II - II Optimization algorithms - Mini-batch gradient descent

Mini-batch gradient descent 1. 用batch gradient descent时,当数据量巨大时,向量化的实现同样很慢,并且需要处理全部数据后,gradient才会得到更新 2. 使用mini-batch gradient descent来训练时,每一个mini-batch都能时gradient得到更新(但不一定都使 L L 下降) 3. mini-batch的大小如
相关文章
相关标签/搜索