Digit Recognizer

batch梯度下降算法 梯度下降算法并不能保证被优化的函数达到全局最优解,只有当损失函数为凸函数时才能保证达到了全局最优解。除了不能达到全局最优解,梯度下降算法的另外一个问题就是计算时间太长,因为要在全部训练数据上最小化损失,在每一轮的迭代过程中都要计算全部数据上的损失函数。 随机梯度下降(SGD) 为了加速训练过程,可以使用随机梯度下降算法(Stochastic Gradient Descent
相关文章
相关标签/搜索