RF和GBDT的区别

Random Foresthtml

​采用bagging思想,即利用bootstrap抽样,获得若干个数据集,每一个数据集都训练一颗树。算法

构建决策树时,每次分类节点时,并不是考虑所有特征,而是从特征候选集中选取若干个特征用于计算。弱特征共有p个,通常选取m=sqrt(p)个特征。当可选特征数目很大时,选取一个较小的m值,有助于决策树的构建。bootstrap

​当树的数量足够多时,RF不会产生过拟合,提升树的数量可以使得错误率下降。dom

GBDT函数

采用Boosting思想(注意是Boosting,不是Boostrap)​url

不采用Boostrap抽样的方法(RF采用了),每次迭代过程都会使用所有数据集(会有一些变化,即采用的是上一轮训练后获得的预测结果与真实结果之间的残差(残差是由损失函数计算获得的))spa

​GBDT的每棵树是按顺序生成的,每棵树生成时都须要利用以前一棵树留下的信息(RF的树是并行生成的)。rest

​GBDT中树的数目过多会引发过拟合(RF不会)。htm

​构架树时,深度为1时一般效果很好(深度为1的决策树称为决策桩decision stumps)。blog

​下图是两种算法的对比

相关文章
相关标签/搜索