我理解的Kaggle比赛中提升成绩主要有3个地方html
以前每次打比赛都只作了前两部分,最后的模型融合就是简单的加权平均,对于进阶的Stacking方法一直没尝试,这几天摸索了一下仍是把Stacking方法给弄懂了。(本文重点讲解Stacking,Bagging和Boosting有不少权威的好教程,因此不详细介绍)最先的Stacking思想早些年就有论文发表,可是应用Stacking方法到比赛中的相关文章仍是少之甚少,这有两篇https://mlwave.com/kaggle-ensembling-guide/、HUMAN ENSEMBLE LEARNING讲的很棒,可是以前由于理解不到位,有几处卡住了。在@Wille 的文章如何在 Kaggle 首战中进入前 10%中Stacking只是做为一部分提到。所以决定本身写一篇关于模型融合的文章。本文不涉及到各个算法原理层次的深度,目的在于从宏观上帮助理解这几个模型融合方法。python
Bagging算法不用咱们本身实现,随机森林就是基于Bagging算法的一个典型例子,采用的基分类器是决策树。R和python都集成好了,直接调用。git
1. 基模型M1,对训练集train训练,而后用于预测train和test的标签列,分别是P1,T1
对于M2和M3,重复相同的工做,这样也获得P2,T2,P3,T3。github
2. 分别把P1,P2,P3以及T1,T2,T3合并,获得一个新的训练集和测试集train2,test2.web
Stacking本质上就是这么直接的思路,可是这样确定是不行的,问题在于P1的获得是有问题的,用整个训练集训练的模型反过来去预测训练集的标签,毫无疑问过拟合是很是很是严重的,所以如今的问题变成了如何在解决过拟合的前提下获得P一、P二、P3,这就变成了熟悉的节奏——K折交叉验证。咱们以2折交叉验证获得P1为例,假设训练集为4行3列面试
将其划分为2部分算法
用traina训练模型M1,而后在trainb上进行预测获得preb3和pred4
在trainb上训练模型M1,而后在traina上进行预测获得pred1和pred2
而后把两个预测集进行拼接
对于测试集T1的获得,有两种方法。注意到刚刚是2折交叉验证,M1至关于训练了2次,因此一种方法是每一次训练M1,能够直接对整个test进行预测,这样2折交叉验证后测试集至关于预测了2次,而后对这两列求平均获得T1。
或者直接对测试集只用M1预测一次直接获得T1。
P一、T1获得以后,P二、T二、P三、T3也就是一样的方法。理解了2折交叉验证,对于K折的状况也就理解也就很是顺利了。因此最终的代码是两层循环,第一层循环控制基模型的数目,每个基模型要这样去获得P1,T1,第二层循环控制的是交叉验证的次数K,对每个基模型,会训练K次最后拼接获得P1,取平均获得T1。这下再把@Wille博文中的那张图片放出来就很容易看懂了。app
def get_oof(clf, x_train, y_train, x_test):
oof_train = np.zeros((ntrain,))
oof_test = np.zeros((ntest,))
oof_test_skf = np.empty((NFOLDS, ntest)) #NFOLDS行,ntest列的二维array
for i, (train_index, test_index) in enumerate(kf): #循环NFOLDS次
x_tr = x_train[train_index]
y_tr = y_train[train_index]
x_te = x_train[test_index]
clf.fit(x_tr, y_tr)
oof_train[test_index] = clf.predict(x_te)
oof_test_skf[i, :] = clf.predict(x_test) #固定行填充,循环一次,填充一行
oof_test[:] = oof_test_skf.mean(axis=0) #axis=0,按列求平均,最后保留一行
return oof_train.reshape(-1, 1), oof_test.reshape(-1, 1) #转置,从一行变为一列
algorithmList <- c('lda', 'rpart', 'glm', 'knn', 'svmRadial')
stackControl <- trainControl(method="repeatedcv", number=10, repeats=3, savePredictions=TRUE, classProbs=TRUE)
stack.glm <- caretStack(models, method="glm", metric="Accuracy", trControl=stackControl)
nfolds <- 5
glm1 <- h2o.glm(x = x, y = y, family = family,
training_frame = train,
nfolds = nfolds,
fold_assignment = "Modulo",
keep_cross_validation_predictions = TRUE)
gbm1 <- h2o.gbm(x = x, y = y, distribution = "bernoulli",
training_frame = train,
seed = 1,
nfolds = nfolds,
fold_assignment = "Modulo",
keep_cross_validation_predictions = TRUE)
rf1 <- h2o.randomForest(x = x, y = y, # distribution not used for RF
training_frame = train,
seed = 1,
nfolds = nfolds,
fold_assignment = "Modulo",
keep_cross_validation_predictions = TRUE)
dl1 <- h2o.deeplearning(x = x, y = y, distribution = "bernoulli",
training_frame = train,
nfolds = nfolds,
fold_assignment = "Modulo",
keep_cross_validation_predictions = TRUE)
models <- list(glm1, gbm1, rf1, dl1)
metalearner <- "h2o.glm.wrapper"
stack <- h2o.stack(models = models,
response_frame = train[,y],
metalearner = metalearner,
seed = 1,
keep_levelone_data = TRUE)
# Compute test set performance:
perf <- h2o.ensemble_performance(stack, newdata = test)