经常使用于分类过程,但也能够用于回归,分类模型时中间节点为属性,叶子节点为类别。算法
特色:bootstrap
最大化信息增益来选择属性
。经过在验证集上的效果来剪枝(预剪枝+后剪枝,防止过拟合的的主要手段)。分类回归树 CART(Classification and Regression Trees):二元划分(二叉树)。分类时度量指标为Gini指标(最小化基尼指数)、 Towing;回归问题时,度量指标觉得最小平方残差。直观来讲, Gini(D) 反映了从数据集D 中随机抽取两个样本,其类别标记不一致的几率。所以, Gini(D) 越小,则数据集D 的纯度越高。设结点数据集为 D ,对每一个特征 A ,对其每一个值 a ,根据样本点对A=a 的测试为是或否,将 D 分为 D1 D2 ,计算 A=a 的基尼指数
。测试
随机森林在 bagging基础上作了 修改:code
样本扰动
。属性扰动