RF和GBDT的区别

时间 2019-12-01

标签 gbdt 区别繁體版

原文原文链接

Random Foresthtml

采用bagging思想，即利用bootstrap抽样，获得若干个数据集，每一个数据集都训练一颗树。算法

构建决策树时，每次分类节点时，并不是考虑所有特征，而是从特征候选集中选取若干个特征用于计算。弱特征共有p个，通常选取m=sqrt(p)个特征。当可选特征数目很大时，选取一个较小的m值，有助于决策树的构建。bootstrap

当树的数量足够多时，RF不会产生过拟合，提升树的数量可以使得错误率下降。dom

GBDT函数

采用Boosting思想（注意是Boosting，不是Boostrap）url

不采用Boostrap抽样的方法（RF采用了），每次迭代过程都会使用所有数据集（会有一些变化，即采用的是上一轮训练后获得的预测结果与真实结果之间的残差（残差是由损失函数计算获得的））。spa

GBDT的每棵树是按顺序生成的，每棵树生成时都须要利用以前一棵树留下的信息（RF的树是并行生成的）。rest

GBDT中树的数目过多会引发过拟合（RF不会）。htm

构架树时，深度为1时一般效果很好（深度为1的决策树称为决策桩decision stumps）。blog

下图是两种算法的对比