【NLP学习笔记】训练集、验证集和测试集的概念及划分

一、概念

  • 训练集:用于训练的样本集合,主要用来训练神经网络中的参数。
  • 验证集:用于验证模型性能的样本集合。不同神经网络在训练集上训练结束后,通过验证集来比较判断各个模型的性能.这里的不同模型主要是指对应不同超参数的神经网络,也可以指完全不同结构的神经网络。
  • 测试集:对于训练完成的神经网络,测试集用于客观的评价神经网络的性能。

二、深入理解他们之间的区别

  • 神经网络在网络结构确定的情况下,有两部分影响模型最终的性能,一是普通参数(比如权重w和偏置b),另一个是超参数(例如学习率,网络层数)。普通参数我们在训练集上进行训练,超参数我们一般人工指定(比较不同超参数的模型在验证集上的性能)。那为什么我们不像普通参数一样在训练集上训练超参数呢?(花书给出了解答)一是超参数一般难以优化(无法像普通参数一样通过梯度下降的方式进行优化)。二是超参数很多时候不适合在训练集上进行训练,例如:如果在训练集上训练能控制模型容量的超参数,这些超参数总会被训练成使得模型容量最大的参数(因为模型容量越大,训练误差越小),所以训练集上训练超参数的结果就是模型绝对过拟合。

  • 正因为超参数无法在训练集上进行训练,因此我们单独设立了一个验证集,用于选择(人工训练)最优的超参数。因为验证集是用于选择超参数的,因此验证集和训练集是独立不重叠的。

  • 测试集是用于在完成神经网络训练过程后,为了客观评价模型在其未见过(未曾影响普通参数和超参数选择)的数据上的性能,因此测试与验证集和训练集之间也是独立不重叠的,而且测试集不能提出对参数或者超参数的修改意见,只能作为评价网络性能的一个指标。
    在这里插入图片描述

三、神网完整的训练过程

可以归纳为一下两个步骤:

  1. 训练普通参数:在训练集(给定超参数)上利用学习算法,训练普通参数,使得模型在训练集上的误差降低到可接受的程度(一般接近人类的水平)。

  2. 训练超参数:在验证集上验证网络的generalization error(泛化能力),并根据模型性能对超参数进行调整,也就是我们常说的调参

重复1和2两个步骤,直至网络在验证集上取得较低的generalization error。

此时完整的训练过程结束。在完成参数和超参数的训练后,在测试集上测试网络的性能。

三、划分原则

3.1 小规模数据集

  • 划分比例是:训练集:验证集:测试集 = 6:2:2。
    例如共有10000个样本,则训练集分为6000个样本,验证集为2000样本,测试集为2000样本。

  • 不设置验证集的话,划分比利是:训练集:测试集 = 7:3,其实这种情况下的测试集被称为验证集或者开发集会更贴切。

3.2 大规模数据集

对于大规模样本集,例如百万级别的数据集,验证集和测试集所占的比例会减小很多,因为验证(比较)模型性能和测试模型性能一定的样本规模就足够了。

  • 一般是:训练集:验证集:测试集 = 9.8:0.1:0.1。
    例如共有1000000个样本,训练集分为980000个样本,验证集分为10000个样本,测试集分为10000个样本。

四、扩展

  • 在有些数据集的划分中,没有真正的测试集,也就是只有训练集和测试集。
  • 利用训练集来训练模型,然后通过测试模型在测试集上的表现来调整超参和采用不同的策略来提高模型在测试集上的表现,而没有真正的测试集来评估模型的性能,缺少真正的测试集可能会导致模型过拟合,使用这种方式在测试集上所获取的模型评估是不可靠的。
  • 建议不要省略验证集,利用验证集来调整模型,利用测试集来评估模型的指标。如果模型上线的指标要求比较高时,可以适当的加大测试集的数量以此来获取更高精度的评估指标,建议不要超过30%。
  • 从训练集中划分出一部分作为验证集,该部分不用于训练,作为评价模型generalization error,而训练集与验证集之间的误差作为data mismatch error,表示数据分布不同引起的误差。
  • 这种划分方式有利于保证:数据具有相同的分布
  • 如果训练集和测试集的数据分布可能不相同,那么必定会导致一个问题,模型在训练集上的表现会非常的好,而在测试集上表现可能不会那么理想。
  • 通过训练数据来训练模型,就是希望模型能够从训练集中学习到数据的分布,如果训练集和测试集数据不在同一个分布中,那么模型在测试集上的表现肯定是不会理想的。

参考

[1] 吴恩达的机器学习课程
[2] 训练集、验证集和测试集的概念及划分原则
[3] 训练集、验证集、测试集的划分
[4] 数据集的划分–训练集、验证集和测试集