随机森林之Bagging法

时间 2019-11-11

标签随机森林 bagging 繁體版

原文原文链接

摘要：在随机森林介绍中提到了Bagging方法,这里就具体的学习下bagging方法。html

Bagging方法是一个统计重采样的技术,它的基础是Bootstrap。基本思想是：利用Bootstrap方法重采样来生成多个版本的预测分类器,而后把这些分类器进行组合。一般状况下组合的分类器给出的结果比单一分类器的好,由于综合了各个分类器的特色。之因此用可重复的随机采样技术Bootstrap,是由于进行重复的随机采样所得到的样本能够获得没有或者含有较少的噪声数据。算法

在训练集上采样Bootstrap的方法进行采样，平均1/3的样本不会出如今采样的样本集合中,这就意味着训练集中的噪声点可能不会出如今Bootstrap所采集的样本集合中,因此与在原始样本集合上构建分类器相比,Bootstrap方法能够更容易的得到好的分类器。网络

在Leo Breiman的论文：Bagging Predictors 中他研究了不稳定性问题。他指出神经网络,分类和回归树,线性回归等方法的子集选择都不是稳定的。K-nearest相邻方法是稳定的。在论文中代表,Bagging方法能够正常的处理不稳定状况。实践和理论证实Bagging方法能够将一个好的不稳定的过程推向最优化方向发展。学习

Bagging算法流程以下：优化

1：对于给定的训练样本集合,经过n次的随机可重复的采样,从原始的样本集合中构建一个Bootstrap样本集合。rest

2：对于每个Bootstrap样本集合构建一颗决策树。htm

3：重复1-2步，获取更多的决策树。blog

4：让每一棵决策树对输入量X进行投票get

5：计算全部的投票数目，并以投票最多的一个分类标签做为X的类型。it