神经网络在网络结构确定的情况下,有两部分影响模型最终的性能,一是普通参数(比如权重w和偏置b),另一个是超参数(例如学习率,网络层数)。普通参数我们在训练集上进行训练,超参数我们一般人工指定(比较不同超参数的模型在验证集上的性能)。那为什么我们不像普通参数一样在训练集上训练超参数呢?(花书给出了解答)一是超参数一般难以优化(无法像普通参数一样通过梯度下降的方式进行优化)。二是超参数很多时候不适合在训练集上进行训练,例如:如果在训练集上训练能控制模型容量的超参数,这些超参数总会被训练成使得模型容量最大的参数(因为模型容量越大,训练误差越小),所以训练集上训练超参数的结果就是模型绝对过拟合。
正因为超参数无法在训练集上进行训练,因此我们单独设立了一个验证集,用于选择(人工训练)最优的超参数。因为验证集是用于选择超参数的,因此验证集和训练集是独立不重叠的。
测试集是用于在完成神经网络训练过程后,为了客观评价模型在其未见过(未曾影响普通参数和超参数选择)的数据上的性能,因此测试与验证集和训练集之间也是独立不重叠的,而且测试集不能提出对参数或者超参数的修改意见,只能作为评价网络性能的一个指标。
可以归纳为一下两个步骤:
训练普通参数:在训练集(给定超参数)上利用学习算法,训练普通参数,使得模型在训练集上的误差降低到可接受的程度(一般接近人类的水平)。
训练超参数:在验证集上验证网络的generalization error(泛化能力),并根据模型性能对超参数进行调整,也就是我们常说的调参。
重复1和2两个步骤,直至网络在验证集上取得较低的generalization error。
此时完整的训练过程结束。在完成参数和超参数的训练后,在测试集上测试网络的性能。
划分比例是:训练集:验证集:测试集 = 6:2:2。
例如共有10000个样本,则训练集分为6000个样本,验证集为2000样本,测试集为2000样本。
不设置验证集的话,划分比利是:训练集:测试集 = 7:3,其实这种情况下的测试集被称为验证集或者开发集会更贴切。
对于大规模样本集,例如百万级别的数据集,验证集和测试集所占的比例会减小很多,因为验证(比较)模型性能和测试模型性能一定的样本规模就足够了。
[1] 吴恩达的机器学习课程
[2] 训练集、验证集和测试集的概念及划分原则
[3] 训练集、验证集、测试集的划分
[4] 数据集的划分–训练集、验证集和测试集