Batch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。html
Batch 的选择,首先决定的是降低的方向。若是数据集比较小,彻底能够采用全数据集 ( Full Batch Learning )的形式,这样作至少有 2 个好处:其一,由全数据集肯定的方向可以更好地表明样本整体,从而更准确地朝向极值所在的方向。其二,因为不一样权重的梯度值差异巨大,所以选取一个全局的学习率很困难。 Full Batch Learning 可使用 Rprop 只基于梯度符号而且针对性单独更新各权值。python
对于更大的数据集,以上 2 个好处又变成了 2 个坏处:其一,随着数据集的海量增加和内存限制,一次性载入全部的数据进来变得愈来愈不可行。其二,以 Rprop 的方式迭代,会因为各个 Batch 之间的采样差别性,各次梯度修正值相互抵消,没法修正。这才有了后来 RMSProp 的妥协方案。算法
所谓另外一个极端,就是每次只训练一个样本,即 Batch_Size = 1。这就是在线学习(Online Learning)。线性神经元在均方偏差代价函数的错误面是一个抛物面,横截面是椭圆。对于多层神经元、非线性网络,在局部依然近似是抛物面。使用在线学习,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。如图所示:网络
固然能够,这就是批梯度降低法(Mini-batches Learning)。由于若是数据集足够充分,那么用一半(甚至少得多)的数据训练算出来的梯度与用所有数据训练出来的梯度是几乎同样的。数据结构
这里跑一个 LeNet 在 MNIST 数据集上的效果。MNIST 是一个手写体标准库,我使用的是 Theano 框架。这是一个 Python 的深度学习库。安装方便(几行命令而已),调试简单(自带 Profile),GPU / CPU 通吃,官方教程至关完备,支持模块十分丰富(除了 CNNs,更是支持 RBM / DBN / LSTM / RBM-RNN / SdA / MLPs)。在其上层有 Keras 封装,支持 GRU / JZS1, JZS2, JZS3 等较新结构,支持 Adagrad / Adadelta / RMSprop / Adam 等优化算法。如图所示:框架
运行结果如上图所示,其中绝对时间作了标幺化处理。运行结果与上文分析相印证:机器学习
欢迎一块儿讨论。函数