梯度降低(GD)算法
梯度的本意是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,导数对应的是变化率函数
即函数在该点处沿着该方向变化最快,变化率最大(为该梯度的模)学习
随机梯度降低(SGD):每次迭代随机使用一组样本spa
针对BGD算法训练速度过慢的缺点,提出了SGD算法,普通的BGD算法是每次迭代把全部样本都过一遍,每训练一组样本就把梯度更新一次。而SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,而后再抽取一组,再更新一次,在样本量及其大的状况下,可能不用训练完全部的样本就能够得到一个损失值在可接受范围以内的模型了。.net
批量随即降低(BGD):每次迭代使用全部样本blog
在深度学习中 数据量很是大时,使用全部样本耗费时将会很长get
资料1深度学习