机器学习中各种优化器简介

1.SGD(随机梯度下降) 随机梯度下降是最经典的方法,其计算公式如下图所示。 其中L是损失函数,在机器学习中存在mini-batch,就是每次选择一小部分来训练,这样这里的损失函数实际上是把每个的预测值和真实值的损失函数类和起来最为mini-batch的损失函数返回值,但是你也可以求解平均值,在pytorch中这个在torch.nn.LossFunction中是可选择的(这里的lossfunct
相关文章
相关标签/搜索