kaggle比赛流程（转）

时间 2019-11-29

标签 kaggle 比赛流程繁體版

原文原文链接

1、比赛概述html

不一样比赛有不一样的任务，分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。
比赛一般持续 2 ~ 3 个月，每一个队伍天天能够提交的次数有限，一般为 5 次。
比赛结束前一周是一个 Deadline，在这以后不能再组队，也不能再新加入比赛。因此想要参加比赛请务必在这一 Deadline 以前有过至少一次有效的提交。
通常状况下在提交后会马上获得得分的反馈。不一样比赛会采起不一样的评分基准，能够在分数栏最上方看到使用的评分方法。
反馈的分数是基于测试集的一部分计算的，剩下的另外一部分会被用于计算最终的结果。因此最后排名会变更。
LB 指的就是在 Leaderboard 获得的分数，由上，有 Public LB 和 Private LB 之分。
本身作的 Cross Validation 获得的分数通常称为 CV 或是 Local CV。通常来讲 CV 的结果比 LB 要可靠

2、可视化python

　　一般来讲 matplotlib 和 seaborn 提供的绘图功能就能够知足需求了。git

比较经常使用的图表有：github

查看目标变量的分布。当分布不平衡时，根据评分标准和具体模型的使用不一样，可能会严重影响性能。
对 Numerical Variable，能够用 Box Plot 来直观地查看它的分布。
对于坐标类数据，能够用 Scatter Plot 来查看它们的分布趋势和是否有离群点的存在。
对于分类问题，将数据根据 Label 的不一样着不一样的颜色绘制出来，这对 Feature 的构造颇有帮助。
绘制变量之间两两的分布和相关度图表。

3、数据处理

大部分状况下，在构造 Feature 以前，咱们须要对比赛提供的数据集进行一些处理。一般的步骤有：算法

有时数据会分散在几个不一样的文件中，须要 Join 起来。
处理 Missing Data。
处理 Outlier。
必要时转换某些 Categorical Variable 的表示方式。
有些 Float 变量多是从未知的 Int 变量转换获得的，这个过程当中发生精度损失会在数据中产生没必要要的 Noise，即两个数值本来是相同的却在小数点后某一位开始有不一样。这对 Model 可能会产生很负面的影响，须要设法去除或者减弱 Noise。

这一部分的处理策略多半依赖于在前一步中探索数据集所获得的结论以及建立的可视化图表。在实践中，我建议使用 iPython Notebook 进行对数据的操做，并熟练掌握经常使用的 pandas 函数。spring

4、特征工程

总的来讲，咱们应该生成尽可能多的 Feature，相信 Model 可以挑出最有用的 Feature。但有时先作一遍 Feature Selection 也能带来一些好处：windows

Feature 越少，训练越快。
有些 Feature 之间可能存在线性关系，影响 Model 的性能。
经过挑选出最重要的 Feature，能够将它们之间进行各类运算和操做的结果做为新的 Feature，可能带来意外的提升。

Feature Selection 最实用的方法也就是看 Random Forest 训练完之后获得的 Feature Importance 了。其余有一些更复杂的算法在理论上更加 Robust，可是缺少实用高效的实现，好比这个。从原理上来说，增长 Random Forest 中树的数量能够在必定程度上增强其对于 Noisy Data 的 Robustness。数组

看 Feature Importance 对于某些数据通过脱敏处理的比赛尤为重要。这能够省得你浪费大把时间在琢磨一个不重要的变量的意义上。网络

这里用一个例子来讲明在一些状况下 Raw Feature 可能须要通过一些转换才能起到比较好的效果。dom

假设有一个 Categorical Variable 一共有几万个取值可能，那么建立 Dummy Variables 的方法就不可行了。这时一个比较好的方法是根据 Feature Importance 或是这些取值自己在数据中的出现频率，为最重要（好比说前 95% 的 Importance）那些取值（有很大可能只有几个或是十几个）建立 Dummy Variables，而全部其余取值都归到一个“其余”类里面。

5、模型选择

准备好 Feature 之后，就能够开始选用一些常见的模型进行训练了。Kaggle 上最经常使用的模型基本都是基于树的模型：

Gradient Boosting
Random Forest
Extra Randomized Trees

如下模型每每在性能上稍逊一筹，可是很适合做为 Ensemble 的 Base Model。这一点以后再详细解释。（固然，在跟图像有关的比赛中神经网络的重要性仍是不能小觑的。）

SVM
Linear Regression
Logistic Regression
Neural Networks

以上这些模型基本均可以经过 sklearn 来使用。

固然，这里不能不提一下 Xgboost。Gradient Boosting 自己优秀的性能加上 Xgboost 高效的实现，使得它在 Kaggle 上广为使用。几乎每场比赛的获奖者都会用 Xgboost 做为最终 Model 的重要组成部分。在实战中，咱们每每会以 Xgboost 为主来创建咱们的模型而且验证 Feature 的有效性。顺带一提，在 Windows 上安装 Xgboost 很容易遇到问题，目前已知最简单、成功率最高的方案能够参考我在这篇帖子中的描述。

6、模型训练

在训练时，咱们主要但愿经过调整参数来获得一个性能不错的模型。一个模型每每有不少参数，但其中比较重要的通常不会太多。好比对 sklearn 的 RandomForestClassifier 来讲，比较重要的就是随机森林中树的数量 n_estimators 以及在训练每棵树时最多选择的特征数量max_features。因此咱们须要对本身使用的模型有足够的了解，知道每一个参数对性能的影响是怎样的。

一般咱们会经过一个叫作 Grid Search 的过程来肯定一组最佳的参数。其实这个过程说白了就是根据给定的参数候选对全部的组合进行暴力搜索。

1
2
3

param_grid = {'n_estimators': [300, 500], 'max_features': [10, 12, 14]}
model = grid_search.GridSearchCV(estimator=rfr, param_grid=param_grid, n_jobs=1, cv=10, verbose=20, scoring=RMSE)
model.fit(X_train, y_train)

顺带一提，Random Forest 通常在 max_features 设为 Feature 数量的平方根附近获得最佳结果。

这里要重点讲一下 Xgboost 的调参。一般认为对它性能影响较大的参数有：

eta：每次迭代完成后更新权重时的步长。越小训练越慢。
num_round：总共迭代的次数。
subsample：训练每棵树时用来训练的数据占所有的比例。用于防止 Overfitting。
colsample_bytree：训练每棵树时用来训练的特征的比例，相似 RandomForestClassifier 的 max_features。
max_depth：每棵树的最大深度限制。与 Random Forest 不一样，Gradient Boosting 若是不对深度加以限制，最终是会 Overfit 的。
early_stopping_rounds：用于控制在 Out Of Sample 的验证集上连续多少个迭代的分数都没有提升后就提早终止训练。用于防止 Overfitting。

通常的调参步骤是：

将训练数据的一部分划出来做为验证集。
先将 eta 设得比较高（好比 0.1），num_round 设为 300 ~ 500。
用 Grid Search 对其余参数进行搜索
逐步将 eta 下降，找到最佳值。
以验证集为 watchlist，用找到的最佳参数组合从新在训练集上训练。注意观察算法的输出，看每次迭代后在验证集上分数的变化状况，从而获得最佳的 early_stopping_rounds。

X_dtrain, X_deval, y_dtrain, y_deval = cross_validation.train_test_split(X_train, y_train, random_state=1026, test_size=0.3)
dtrain = xgb.DMatrix(X_dtrain, y_dtrain)
deval = xgb.DMatrix(X_deval, y_deval)
watchlist = [(deval, 'eval')]
params = {
 'booster': 'gbtree',
 'objective': 'reg:linear',
 'subsample': 0.8,
 'colsample_bytree': 0.85,
 'eta': 0.05,
 'max_depth': 7,
 'seed': 2016,
 'silent': 0,
 'eval_metric': 'rmse'
}
clf = xgb.train(params, dtrain, 500, watchlist, early_stopping_rounds=50)
pred = clf.predict(xgb.DMatrix(df_test))

最后要提一点，全部具备随机性的 Model 通常都会有一个 seed 或是 random_state 参数用于控制随机种子。获得一个好的 Model 后，在记录参数时务必也记录下这个值，从而可以在以后重现 Model。

7、交叉验证

Cross Validation 是很是重要的一个环节。它让你知道你的 Model 有没有 Overfit，是否是真的可以 Generalize 到测试集上。在不少比赛中 Public LB 都会由于这样那样的缘由而不可靠。当你改进了 Feature 或是 Model 获得了一个更高的 CV 结果，提交以后获得的 LB 结果却变差了，通常认为这时应该相信 CV 的结果。固然，最理想的状况是多种不一样的 CV 方法获得的结果和 LB 同时提升，但这样的比赛并非太多。

在数据的分布比较随机均衡的状况下，5-Fold CV 通常就足够了。若是不放心，能够提到 10-Fold。可是 Fold 越多训练也就会越慢，须要根据实际状况进行取舍。

不少时候简单的 CV 获得的分数会不大靠谱，Kaggle 上也有不少关于如何作 CV 的讨论。好比这个。但总的来讲，靠谱的 CV 方法是 Case By Case 的，须要在实际比赛中进行尝试和学习，这里就再也不（也不能）叙述了。

8、Ensemble Generation

Ensemble Learning 是指将多个不一样的 Base Model 组合成一个 Ensemble Model 的方法。它能够同时下降最终模型的 Bias 和 Variance（证实能够参考这篇论文，我最近在研究相似的理论，可能以后会写新文章详述)，从而在提升分数的同时又下降 Overfitting 的风险。在如今的 Kaggle 比赛中要不用 Ensemble 就拿到奖金几乎是不可能的。

常见的 Ensemble 方法有这么几种：

Bagging：使用训练数据的不一样随机子集来训练每一个 Base Model，最后进行每一个 Base Model 权重相同的 Vote。也即 Random Forest 的原理。
Boosting：迭代地训练 Base Model，每次根据上一个迭代中预测错误的状况修改训练样本的权重。也即 Gradient Boosting 的原理。比 Bagging 效果好，但更容易 Overfit。
Blending：用不相交的数据训练不一样的 Base Model，将它们的输出取（加权）平均。实现简单，但对训练数据利用少了。
Stacking：接下来会详细介绍。

从理论上讲，Ensemble 要成功，有两个要素：

Base Model 之间的相关性要尽量的小。这就是为何非 Tree-based Model 每每表现不是最好但仍是要将它们包括在 Ensemble 里面的缘由。Ensemble 的 Diversity 越大，最终 Model 的 Bias 就越低。
Base Model 之间的性能表现不能差距太大。这实际上是一个 Trade-off，在实际中颇有可能表现相近的 Model 只有寥寥几个并且它们之间相关性还不低。可是实践告诉咱们即便在这种状况下 Ensemble 仍是能大幅提升成绩。

9、Stacking

相比 Blending，Stacking 能更好地利用训练数据。以 5-Fold Stacking 为例，它的基本原理如图所示：

整个过程很像 Cross Validation。首先将训练数据分为 5 份，接下来一共 5 个迭代，每次迭代时，将 4 份数据做为 Training Set 对每一个 Base Model 进行训练，而后在剩下一份 Hold-out Set 上进行预测。同时也要将其在测试数据上的预测保存下来。这样，每一个 Base Model 在每次迭代时会对训练数据的其中 1 份作出预测，对测试数据的所有作出预测。5 个迭代都完成之后咱们就得到了一个 #训练数据行数 x #Base Model 数量 的矩阵，这个矩阵接下来就做为第二层的 Model 的训练数据。当第二层的 Model 训练完之后，将以前保存的 Base Model 对测试数据的预测（由于每一个 Base Model 被训练了 5 次，对测试数据的全体作了 5 次预测，因此对这 5 次求一个平均值，从而获得一个形状与第二层训练数据相同的矩阵）拿出来让它进行预测，就获得最后的输出。

这里给出个人实现代码：

class Ensemble(object):
 def __init__(self, n_folds, stacker, base_models):
 self.n_folds = n_folds
 self.stacker = stacker
 self.base_models = base_models

 def fit_predict(self, X, y, T):
 X = np.array(X)
 y = np.array(y)
 T = np.array(T)

 folds = list(KFold(len(y), n_folds=self.n_folds, shuffle=True, random_state=2016))

 S_train = np.zeros((X.shape[0], len(self.base_models)))
 S_test = np.zeros((T.shape[0], len(self.base_models)))

 for i, clf in enumerate(self.base_models):
 S_test_i = np.zeros((T.shape[0], len(folds)))

 for j, (train_idx, test_idx) in enumerate(folds):
 X_train = X[train_idx]
 y_train = y[train_idx]
 X_holdout = X[test_idx]
 # y_holdout = y[test_idx]
 clf.fit(X_train, y_train)
 y_pred = clf.predict(X_holdout)[:]
 S_train[test_idx, i] = y_pred
 S_test_i[:, j] = clf.predict(T)[:]

 S_test[:, i] = S_test_i.mean(1)

 self.stacker.fit(S_train, y)
 y_pred = self.stacker.predict(S_test)[:]
 return y_pred

获奖选手每每会使用比这复杂得多的 Ensemble，会出现三层、四层甚至五层，不一样的层数之间有各类交互，还有将通过不一样的 Preprocessing 和不一样的 Feature Engineering 的数据用 Ensemble 组合起来的作法。但对于新手来讲，稳妥当当地实现一个正确的 5-Fold Stacking 已经足够了。

10、Pipeline

能够看出 Kaggle 比赛的 Workflow 仍是比较复杂的。尤为是 Model Selection 和 Ensemble。理想状况下，咱们须要搭建一个高自动化的 Pipeline，它能够作到：

模块化 Feature Transform，只需写不多的代码就能将新的 Feature 更新到训练集中。
自动化 Grid Search，只要预先设定好使用的 Model 和参数的候选，就能自动搜索并记录最佳的 Model。
自动化 Ensemble Generation，每一个一段时间将现有最好的 K 个 Model 拿来作 Ensemble。

对新手来讲，第一点可能意义还不是太大，由于 Feature 的数量老是人脑管理的过来的；第三点问题也不大，由于每每就是在最后作几回 Ensemble。可是第二点仍是颇有意义的，手工记录每一个 Model 的表现不只浪费时间并且容易产生混乱。

原文：http://www.cnblogs.com/zhizhan/p/5826089.html