SGD BGD MBGD各种梯度下降的处理方式

但在pytorch中,没有分这种,所有方法都是一批全部计算,然后综合所有数据的梯度反向传播的,虽然名字叫做SGD,但也是一整批计算的,若要分批需采用torch.utils.Data下面的模块来实现分批计算
相关文章
相关标签/搜索