AI---训练集(train set) 验证集(validation set) 测试集(test set)

时间 2019-11-06

标签训练 train set 验证 validation 测试 test 繁體版

原文原文链接

在有监督(supervise)的机器学习中，数据集常被分红2~3个即：

训练集(train set) 验证集(validation set) 测试集(test set)算法

通常须要将样本分红独立的三部分训练集(train set)，验证集(validation set)和测试集(test set)。其中训练集用来估计模型，验证集用来肯定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。
样本少的时候，上面的划分就不合适了。经常使用的是留少部分作测试集。而后对其他N个样本采用K折交叉验证法。就是将样本打乱，而后均匀分红K份，轮流选择其中K－1份训练，剩余的一份作验证，计算预测偏差平方和，最后把K次的预测偏差平方和再作平均做为选择最优模型结构的依据。特别的K取N，就是留一法（leave one out）。网络

举个例子，K = 10（常见状况），求出整体错误率为8.7%。那么将当前的全部数据所有做为训练数据，获得的模型的错误率90%的可能在9.7%左右。机器学习

training set是用来训练模型或肯定模型参数的，如ANN中权值等； validation set是用来作模型选择（model selection），即作模型的最终优化及肯定的，如ANN的结构；而 test set则纯粹是为了测试已经训练好的模型的推广能力。固然，test set这并不能保证模型的正确性，他只是说类似的数据用此模型会得出类似的结果。但实际应用中，通常只将数据集分红两类，即training set 和test set，大多数文章并不涉及validation set。post

train

训练数据。拟合模型，用这部分数据来创建模型。性能

是一些咱们已经知道输入和输出的数据集训练机器去学习，经过拟合去寻找模型的初始参数。例如在神经网络（Neural Networks)中，咱们用训练数据集和反向传播算法（Backpropagation）去每一个神经元找到最优的比重（Weights)。学习

validation

验证数据。train建了一个模型，可是模型的效果仅体现了训练数据，但不必定适合同类的其余数据，因此建模前数据分红两部分，一部分为训练数据，一部分为验证数据（两部分数据的比例大体为7:3，这取决于你验证的方法）。另外，你也可能训练多个模型，但不知哪一个模型性能更佳，这时能够将验证数据输入不一样模型进行比较。测试

是一些咱们已经知道输入和输出的数据集，经过让机器学习去优化调整模型的参数，在神经网络中，咱们用验证数据集去寻找最优的网络深度（number of hidden layers)，或者决定反向传播算法的中止点；在普通的机器学习中经常使用的交叉验证（Cross Validation) 就是把训练数据集自己再细分红不一样的验证数据集去训练模型。优化

test

测试数据。跟前二者的最大区别在于：train和validation数据均是同一对象的数据，可是测试，咱们就须要用跨对象的数据来验证模型的稳定性。对象

用户测试模型表现的数据集，根据偏差（通常为预测输出与实际输出的不一样）来判断一个模型的好坏。blog

为何验证数据集和测试数据集二者都须要？

由于验证数据集（Validation Set)用来调整模型参数从而选择最优模型，模型自己已经同时知道了输入和输出，因此从验证数据集上得出的偏差（Error)会有误差（Bias)。

可是咱们只用测试数据集(Test Set) 去评估模型的表现，并不会去调整优化模型。

在传统的机器学习中，这三者通常的比例为training/validation/test = 50/25/25, 可是有些时候若是模型不须要不少调整只要拟合就可时，或者training自己就是training+validation (好比cross validation)时，也能够training/test =7/3.

可是在深度学习中，因为数据量自己很大，并且训练神经网络须要的数据不少，能够把更多的数据分给training，而相应减小validation和test。