Deep Learning Specialization课程笔记——最优化算法

Mini-batch gradient descent 假设有5000000样本,我们选取每一个小训练集有1000个样本,则: 算法如下,实际上就是分成5000份然后做循环: 代价函数对比: 当mini-batch的大小等于训练集大小m,就是批量梯度下降。梯度下降时噪声小,步长大,可以达到最小值,下图蓝色线。缺点:在每次迭代中风遍历整个训练集,花费时间长。 当mini-batch的大小为1,就是随
相关文章
相关标签/搜索