野路子码农系列（6）有关线下验证集选取的思考

时间 2019-11-29

原文原文链接

最近周围的小伙伴们都在玩kaggle上进行的IEEE-CIS，做为常常“地震”的时序题，关于如何选取验证集的讨论天然也很多。究竟如何选择一个靠谱的线下验证集？关于这个问题，我也思考过不少，如今将一些看法与你们分享，抛砖引玉。学习

首先，咱们要知道选择验证集的意义是什么。在作表格题时，常常参加比赛的人可能会很是惯性地来套5CV，大力出奇迹，一发LGB，毁天又灭地。若是是时间序列类的，可能会找类似的一天或一段时间做为验证，其余时间段用来训练等等。不少时候这都是基于直觉或者习惯，并无什么硬性的道理。但私觉得事情并非那么简单。测试

若是用考试来作比方的话，训练集就像咱们用来学习的有答案的习题集。验证集像是一张模拟考卷，而测试集就是最终的大考。因此通常一个有效的验证集每每意味着这题已经成功了一半，而一个错误的验证集意味着南辕北辙。it

对于大多数问题，咱们一般会有个默认的假设，那就是训练数据与测试数据是知足独立同分布的（iid）。也就是说训练数据和测试数据是差很少的两张卷子，在数据量够大的状况下，咱们能够随机拿一部分习题集用来学习，另外一部分做为模拟卷用来试试本身的实力，由此演变而来的就是最多见的带shuffle的train_test_split和K-Fold（以及Stratified K-Fold）。io

但并不是全部的问题均可以这么简单粗暴，在选取验证集的时候，咱们至少须要考虑3个问题：test

（1）咱们假设数据分布的相同是基于什么？方法

（2）咱们但愿模型经过训练学到什么信息？数据

（3）有什么是不能在训练中泄露给模型的（leakage）？分享

基于此3点，咱们主要用3种不一样的线下验证集的建立方法，分别是：时间

（1）带shuffle的K-Fold/Stratified K-Fold思考

（2）顺序切分（如时间序列在某个时间点切一刀）

（3）Group K-Fold

接下来分别说说我的对此的理解。

（1）带shuffle的K-Fold/Stratified K-Fold

假设某个学生巨多的年级咱们抽了一批学生（测试集），想要了解他们的某科成绩。咱们的假设是全部学生的成绩都服从一个正态分布，这些学生都是这同一个分布中抽样出来的。那么咱们在剩下的学生中要分割训练集和测试集的话就很简单。咱们会认为：

1）全部的数据都来源于同一个分布；

2）等量（足够大）但不一样的抽样对模型能学到的信息没有太大影响；

3）基本不存在信息泄露问题。

在这种状况下，咱们会采用带shuffle的K-Fold，由于既然全部的数据都来源于同一个分布，那么学习咱们采样的数据中的信息就可以估计到整个分布的信息。所以，咱们用交叉验证（Cross Validation）就能够保证同分布的问题，而shuffle则表明咱们抽样的随机性并不会很大程度地影响模型的学习，这种验证是很是有效的。在正负样本极端不平衡的状况下，咱们须要使用Stratified K-Fold来保证正样本被模型学习到，从而避免某一折全是负样本的状况。

因此，咱们再随机抽一批学生（最好与测试集等量）作验证集就行。

（2）顺序切分

假设咱们有一群学生过去几周上课打瞌睡的数据，咱们想要预测下周什么状况下他们会打瞌睡。咱们的假设是学生每周的行为是稳定的，重复的（按周期重复）。可是在一周以内，他们天天的行为可能并不相同，好比周一会更困，而周五会更兴奋等等。咱们会认为：

1）每一个周期之间的分布是相同的（周与周），但每一个周期内部的分布是不一样的（天与天）；

2）模型要学习一个完整周期内的信息（周一到周日）；

3）跨周期的信息不该该泄露（本周与下周）。

在这种状况下，基于以上三点，咱们通常会采用按时间切分，由于只有按时间切分能知足以上三个要求。

若是用带shuffle的K-Fold会怎么样呢？首先，咱们不能保证模型能学习到一个完整周期内的全部信息。此外，即使数据量达到能够保证这一点，shuffle的存在会使得下一个周期的信息混入上一个周期，反之亦然，这就致使了泄露。模型在线下验证集上的得分会很高，但线上会差一截。由于这个“好成绩”是因为信息泄露致使的，而不是模型真的学习到了什么。

因此，咱们能够选择保留最后一周做为验证集。

（3） Group K-Fold

假设有五个班级的学生，班级之间的水平良莠不齐，给你一班、二班、三班、五班的一些历史信息，要你预测四班的学生下次考试的成绩。咱们的假设是虽然五个班级的分布并不相同，但学霸考高分的模式老是相同的。

若是咱们使用带shuffle的K-Fold会怎么样呢？假如一班平均实力特别强，而三班特别弱，咱们会发现班级这个特征占的份量会很重，然而测试集的四班模型历来都没见过，这明显会致使过拟合，从而线下虚高，线上崩盘。这里就须要使用Group K-Fold了。

Group K-Fold比较难解释，也相对较新，早期的sklearn里彷佛并无这个功能。它让你能够指定某个或某些特征，而且保证这些特征的值不跨越每一个Fold，也就是实现特征值的隔离。

举个例子，若是你指定班级来进行Group，那么全部一班相关的内容都出如今某个Fold中，而你在其余Fold中找不到任何关于一班的内容。也就是说，你把一班的信息隔离在了那个Fold里。

那么咱们何时会须要Group K-Fold呢？当咱们认为：

1）全部数据自己未必同分布（一班三班有差别），但其背后某种潜在的模式是一致的；

2）模型要学习对的是某种跨Group的内容或者模式（不局限于某个班级的）；

3）不一样Group之间的信息不该该泄露（一班与三班）

使用Group K-Fold将掩蔽用来进行Group的特征（班级），由于这个特征是没法被泛化的。而模型将学习的是跨越该特征的信息（挖掘学霸），这样的信息才是有价值的，能够被泛化的。

总而言之，线下验证集的选取并非一件很随便的事情。它取决于数据自己的构成以及咱们对数据所传达的信息的假设。因此，要保证线下验证集靠谱的话，咱们仍是要——多作EDA啊！