训练集、验证集、测试集的划分方法

转载自https://blog.csdn.net/wenqiwenqi123/article/details/79232536 作者:超屌的温jay

过去人们运用机器学习传统方法的时候,一般将训练集和测试集划为7:3。
若有验证集,则划为6:2:2. 这样划分确实很科学,当数据量不大的时候(万级别及以下)。这是前几年机器学习领域普遍认可的最好的实践方法。
在这里插入图片描述

但到了大数据时代,数据量陡增为百万级别,此时我们不需要那么多的验证集和训练集。
假设有100W条数据,只需要拿出1W条来当验证集,1W条来当测试集,就能很好地work了。
因此,在深度学习中若是数据很大,我们可以将训练集、验证集、测试集比例调整为98:1:1
在这里插入图片描述