深度学习之梯度下降优化算法

  一、梯度下降的变种算法 1、BGD 批量梯度下降法更新一次参数需要计算整个数据集所有样本的梯度,因此更新速度非常慢,对于凸优化问题会收敛到全局最优点、而非凸优化问题则会收敛到局部最优点,这种方法有可能无法将大量的数据放入内存,也不能进行在线学习。           2、SGD 随机梯度下降法更新一次参数只需计算一个样本的梯度,更新速度很快、参数方差波动大,适用于在线学习,有可能跳出局部最优到
相关文章
相关标签/搜索