算法概述算法
随机森林,顾名思义就是由不少决策树融合在一块儿的算法,它属于Bagging框架的一种算法。框架
随机森林的“森林”,它的弱模型是由决策树算法训练的(CART算法),CART算法即能作回归也能作分类,“随机”是指构造的模型有必定的随机性。测试
每一颗决策树模型的训练是经过自助采样法(Boostrap抽样)抽出来的,因此每个子模型的训练样本并非彻底相同的,每个子模型都存在一些样本不在该模型的训练集中,那些没有被该子模型抽中的样本可做为这个子模型的测试集。spa
每一颗决策树模型在构建的时候并无使用全部的特征变量,而是随机的从全部特征中抽取一个子集来训练模型,这样保证了子模型不但训练样本不彻底同样,连特征变量也不彻底同样,这样就很好的保证了多个子模型的随机性。blog
因此随机森林算法的随机性主要体如今如下两个方面:变量
一、子模型的训练样本是随机抽取的im
二、子模型的特征变量也是随机抽取的db
随机性的引入使得随机森林模型不容易陷入过拟合,具备很好的抗噪能力。并且随机性保证了各子模型间的多样性,子模型间差别越大,模型融合起来的效果会越好,以下图所示:img