优化器(Optimizer)介绍

Gradient Descent(Batch Gradient Descent,BGD) 梯度下降法是最原始,也是最基础的算法。 它将所有的数据集都载入,计算它们所有的梯度,然后执行决策。(即沿着梯度相反的方向更新权重) 优点是在凸函数能收敛到最小值。但显而易见的是,这方法计算量太大。假如我们的数据集很大的话,普通的GPU是完全执行不来的。还有一点,它逃不出鞍点,也容易收敛到局部最小值(也就是极小
相关文章
相关标签/搜索