深度学习(二)

算法优化 mini-batch 将庞大的数据集分成许多个batch,遍历这些batch,每个batch使用梯度下降法进行优化 如果batch的数目太大,则每次迭代的时间太长,如果batch的数目为1,则退化为随机梯度下降法,这样就丧失了向量化的加速作用,因此,需要合理选择batch的数目,一般对于较大的数据集,选择为64或128到512,一般是2的整数次幂。 指数加权平均 vt=βvt−1+(1−
相关文章
相关标签/搜索