决策树(中)-集成学习、RF、AdaBoost、Boost Tree、GBDT

时间 2019-11-21

标签决策树集成学习 adaboost boost tree gbdt 栏目 C&C++ 繁體版

原文原文链接

参考资料(要是对于本文的理解不够透彻，必须将如下博客认知阅读)：面试

1. https://zhuanlan.zhihu.com/p/86263786算法

2.https://blog.csdn.net/liuy9803/article/details/80598652bootstrap

3.http://www.javashuo.com/article/p-tozojgjb-gh.html框架

4.GBDT算法原理以及实例理解(!!)dom

5.Adaboost算法原理分析和实例+代码（简明易懂）(!!)机器学习

1、集成学习相关知识(Ensemble learning)

1. 集成学习（Ensemble learning）是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合，从而得到比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法，而更像是一种优化策略，其目的在于使得集成模型达到减少方差（bagging）、减少误差（boosting）或改进预测（stacking）的效果。

2. 根据集成学习的概念以及通常结构，咱们能都发现集成学习的两个核心问题：

如何选择若干个体学习器？怎么训练每一个算法？
选择何种策略将这些个体学习器集成为一个强学习器？

2. 集成学习的通常结构是，先产生一组个体学习器，再用某种结合策略将它们结合起来。

3. 集成学习的成功在于保证个体学习器的多样性（好而不一样），且集成不稳定的算法也可以获得一个比较明显的性能提高。

4. 根据个体学习器的生成方式，目前的集成学习方法大体能够分为两类：(也有人把集成学习方法分为3类[Bagging、Boosting、stacking]，stacking其实能够当作是一种集成学习方法，也能够当作是一种特殊的结合策略)

个体学习器间存在强依赖关系、必须串行生成的序列化方法，表明为Boosting；
个体学习器间不存在强依赖关系、可同时生成的并行化方法，表明为Bagging和随机森林。

5. 集成学习优点在于：

个体学习器之间存在必定的差别性，这会致使分类边界不一样，也就是说可能存在错误。那么将多个个体学习器合并后，就能够获得更加合理的边界，减小总体的错误率，实现更好的效果；
对于数据集过大或太小的状况，能够分别进行划分和有放回的操做，产生不一样的数据子集，而后使用数据子集训练不一样的学习器，最终再合并成为一个强学习器；
若是数据的划分边界过于复杂，使用线性模型很难描述状况，那么能够训练多个模型，而后再进行模型的融合；
对于多个异构的特征集的时候，很难直接融合，那么能够考虑使用每一个数据集构建一个分类模型，而后将多个模型融合。

2、Bagging(装袋)

1.概念

Bagging 是一种个体学习器之间不存在强依赖关系、可同时生成的并行式集成学习方法。
Bagging 基于自助采样法(bootstrap sampling)，也叫有放回重采样法.即给定包含m个样本的数据集，先随机从样本中取出一个样本放入采样集中，再把该样本返回初始数据集，使得下次采样时该样本仍能够被选中，这样，通过m次随机采样操做，就能够获得包含m个样本的采样集，初始数据集中有的样本屡次出现，有的则未出现。其中，初始训练集中约有63.2%的样本出如今采样集中。
为了使基学习器尽量的具备较大的差别（好而不一样，保持多样性），对训练样本进行采样以产生若干个不一样的子集，对每个子集训练一个基学习器，而后结合策略进行集成的方法。为了避免让每一个基学习器效果太差，这些子集不能彻底不一样，所以使用子集之间相互有交叠的采样方法，即bootstrap方法(自助采样法)。

自助采样法：对 m 个样本的训练集，有放回的采样 m 次；此时，样本在 m 次采样中始终没被采样的几率约为 0.368，即每次自助采样只能采样到所有样本的 63% 左右。

2.流程图

3.算法流程

（1）给定包含m个样本的数据集，随机取出一个样本放入采样集中，再把它放回到原始数据集中，重复m次，获得含m个样本的采样集。

（2）进行一样的操做进行T次获得T个每一个含m个样本的采样集，基于每一个采样集训练一个基学习器。

（3）再将基学习器进行组合，通常使用多数投票或求均值的方式来统计最终的分类结果。

4.Bagging的优势

训练一个 Bagging集成与直接使用基分类器算法训练一个学习器的复杂度同阶，说明Bagging是一个高效的集成学习算法。
此外，与标准的AdaBoost算法只适用于二分类问题不一样，Bagging能不通过修改用于多分类、回归等任务。
因为每一个基学习器只使用63.2%的数据，因此剩下36.8%的数据能够用来作验证集来对泛化性能进行“包外估计”。
从误差-方差的角度来讲，Boosting主要关注减少误差，而Bagging主要关注下降方差，也就说明boosting在弱学习器上表现更好，而下降方差能够减少过拟合的风险，因此Bagging一般在强分类和复杂模型上表现得很好。(这可否说明Bagging的基学习器选取强学习器效果会更好呢？？)

3、Random Forest(RF)(随机森林=Bagging+决策树)

1.概念

随机森林是bagging的扩展体。
RF在以决策树为基学习器，经过Bagging自助采样算法采样训练样本，进一步在决策树的训练过程当中引入了随机属性选择。(为了保证多样性)
具体地，传统决策树在选择划分属性时是在当前结点的属性集合(假定有d个属性)中选择一个最优属性，而在RF上，对基决策树的每一个结点，先从该结点的属性集中随机选择其中的k个属性组成属性集，而后从该属性集中选择最优的划分属性，通常状况下，推荐。

2.随机森林随机的意义表如今哪？

随机森林中随机主要体如今对样本的随机采样以及引入了随机属性选择。
无论是对样本的随机采样，仍是对特征的抽样，甚至对切分点的随机划分，都是为了引入误差，使基分类器之间具备明显的差别，相互独立，提高模型的多样性，使模型不会受到局部样本的影响，从而减小方差，提高模型的泛化能力。

3.随机森林的优缺点

可以处理很高维度的数据，而且不用作特征选择；处理高维数据，处理特征遗失数据，处理不平衡数据是随机森林的长处。
随机森林可用于回归问题和分类问题，取决于随机森林的每颗cart树是分类树仍是回归树。；
容易作成并行化方法，速度快；
能够进行可视化展现，便于分析。
当数据噪声比较大时，会产生过拟合现象；
当随机森林中的决策树个数不少时，训练时须要的空间和时间会比较大
随机森林中还有许多很差解释的地方，有点算是黑盒模型

4.随机森林与Bagging算法的比较

二者的收敛性类似，但RF的起始性能相对较差，特别只有一个基学习器时。随着基学习器数量的增长，随机森林一般会收敛到更低的泛化偏差。
随机森林的训练效率常优于Bagging，由于Bagging是“肯定型”决策树，而随机森林使用“随机型”决策树。

4、Boosting(提高)

1.概念

（1）Boosting是一簇可将弱学习器提高为强学习器的算法，其基于串行策略：基学习器之间存在依赖关系，新的学习器须要根据上一个学习器生成，每次学习都会使用所有训练样本。

（2）其工做机制为：先从初始训练集训练出一个基学习器，再根据基学习器的表现对样本分布进行调整，使得先前的基学习器作错的训练样本在后续收到更多的关注，而后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到实现指定的值T，或整个集成结果达到退出条件，而后将这些学习器进行加权结合。正确率越高的基学习器的得到的权重越大。Boosting能够用于分类和回归问题。

（3）常见的基于Boosting模型的算法有：AdaBoost、Boosting Tree、GBDT、XGBoost。

2.流程图

3.Boosting的特色

（1）从方差-误差分解的角度看，Boosting主要关注下降误差，所以Boosting能基于泛化性能至关弱的学习器构建出很强的集成。

（2）Boosting对样本分布进行调整主要有两种方法：

从新赋权法（re-weighting）：在每一轮学习中，根据样本分布为每一个训练样本从新赋予一个权重值。
重采样法（re-sampling）：对于没法接受带权样本的基学习算法，在每一轮学习中，根据样本分布对训练集从新进行采样，再用重采样获得的样本集对基学习器进行训练。

4.Bagging和Boosting的区别

(1) 样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每一个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

(2) 样例权重：

Bagging：使用均匀取样，每一个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

(3) 预测函数：

Bagging：全部预测函数的权重相等。

Boosting：每一个弱分类器都有相应的权重，对于分类偏差小的分类器会有更大的权重。

(4) 并行计算：

Bagging：各个预测函数能够并行生成

Boosting：各个预测函数只能顺序生成，由于后一个模型参数须要前一轮模型的结果。

(5) 为何说bagging是减小variance，而boosting是减小bias(高频面试)

Bagging中每一个基学习器都是强学习器，主要关注的问题是下降方差；Boosting中每一个基学习器都是弱学习器，主要关注的问题是下降误差。具体解答分析见7.从误差和方差的角度理解集成学习

5、AdaBoost(只对AdaBoost作了简单的推导，具体推导细节请看统计学习方法)

1.概念

（1）AdaBoost [ adaptive boosting(自适应boosting) ] 是Boosting中的经典算法，其主要应用于二分类问题,也能够用于多分类以及回归问题。

（2）AdaBoost算法思路：如何改变每一轮训练数据的权重？Adaboost 算法采用调整样本权重的方式来对样本分布进行调整，即提升前一轮个体学习器错误分类的样本的权重，而下降那些正确分类的样本的权重，这样就能使得错误分类的样本能够受到更多的关注，从而在下一轮中能够正确分类，使得分类问题被一系列的弱分类器“分而治之”。如何将弱分类器组合成一个强分类器？对于组合方式，AdaBoost采用加权多数表决的方法，具体地，加大分类偏差率小的若分类器的权值，减少分类偏差率大的若分类器的权值，从而调整他们在表决中的做用。

2.算法流程(摘自西瓜书与统计学习方法)

3.结合一个例子来理解整个算法的流程，这个例子摘自李航《统计学习方法》：

4.AdaBoost算法的理解

AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法的二分类算法。AdaBoost算法中最重要的应该就是样本权重更新公式的推导。

加法模型：最终的强分类器是由若干个弱分类器加权平均获得的。

前向分布学习算法：算法是经过一轮轮的弱学习器学习，利用前一个弱学习器的结果来更新后一个弱学习器的训练集权重。第 k 轮的强学习器为：

$F_{k}(x)=\sum_{i=1}^{k}\alpha_i f_i(x)=F_{k-1}(x)+\alpha_{k}f_k(x) \\$

定义损失函数为 n 个样本的指数损失函数：

$L(y,F) = \sum_\limits{i=1}^{n}exp(-y_iF_{k}(x_i)) \\$

利用前向分布学习算法的关系能够获得：

$\begin{align} L(y, F) &= \sum_\limits{i=1}^{m}exp[(-y_i) (F_{k-1}(x_i) + \alpha_k f_k(x_i))] \\ &= \sum_\limits{i=1}^{m}exp[-y_i F_{k-1}(x_i) -y_i \alpha_k f_k(x_i)] \\ &= \sum_\limits{i=1}^{m}exp[-y_i F_{k-1}(x_i) ] exp[-y_i \alpha_k f_k(x_i)] \end{align} \\$

由于 $F_{k-1}(x)$ 已知，因此令 $w_{k,i} = exp(-y_iF_{k-1}(x_i))$ ，随着每一轮迭代而将这个式子带入损失函数，损失函数转化为：

$L(y, F(x)) =\sum_\limits{i=1}^{m}w_{k,i}exp[-y_i\alpha_k f_k(x_i)] \\$

咱们求 $f_k(x)$ ，能够获得：

$f_k(x) =\sum_\limits{i=1}^{m}w_{k,i}I(y_i \neq f_k(x_i)) \\$

将 $f_k(x)$ 带入损失函数，并对 $\alpha$ 求导，使其等于 0，则就获得了：

$\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k} \\$

其中， $e_k$ 即为咱们前面的分类偏差率。

$e_k = \frac{\sum\limits_{i=1}^{m}w_{ki}^{’}I(y_i \neq f_k(x_i))}{\sum\limits_{i=1}^{m}w_{ki}^{’}} = \sum\limits_{i=1}^{m}w_{ki}I(y_i \neq f_k(x_i)) \\$

最后看样本权重的更新。利用 $F_{k}(x) = F_{k-1}(x) + \alpha_kf_k(x)$ 和 $w_{k+1,i}=w_{k,i}exp[-y_i\alpha_kf_k(x,i)]$ ，便可得：

$w_{k+1,i} = w_{ki}exp[-y_i\alpha_kf_k(x_i)] \\$

这样就获得了样本权重更新公式。

5.AdaBoost优缺点

分类精度高；
能够用各类回归分类模型来构建弱学习器，很是灵活；
不容易发生过拟合。
对异常点敏感，异常点会得到较高权重。

6、Boosting tree(提高树)(年龄例子)

1.概念

提高树是以分类树或回归树为基本分类器的提高方法。Boosting Tree被认为是统计学习中性能最好的方法之一。
提高方法采用加法模型(即基函数的线性组合)与前向分步算法，以决策树为基函数的提高方法称为提高树(boosting tree)。
对于分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。
从某种角度能够理解为Boosting tree = Adaboost + tree

2.提高树模型表示

其中， $T(x;\Theta _m)$ 表示决策树； $\Theta _m$ 为决策树的参数；为决策树的个数。

3.多种类型提高树算法

提高树对不一样问题有不一样的提高树学习算法，其主要区别在于使用的损失函数不一样。

（1）用平方偏差损失函数的回归问题。

（2）用指数损失函数的分类问题。

（3）通常损失函数的通常决策问题。(引出了GB[Gradient Boosting 梯度提高]算法，GB+决策树(回归树)就获得了GBDT)

4.用于分类问题的提高树

对于二分类问题，Boosting Tree算法只须要将AdaBoost算法中的基分类器限制为CART二分类树便可。

从这个角度能够反应出，在二分类问题中 Boosting Tree = AdaBoost + Tree(二分类树)

5.用于回归问题的提高树(推导过程，详细过程见统计学习方法)

（1）把输入空间X划分为J个互不相交的区域，而且在每一个区域上肯定的输出常量，那么树能够表示为以下：

其中，参数表示树的区域划分和各个区域上的常数。J是回归树的复杂度即叶子结点个数。

（2）回归问题提高树使用如下前向分布算法：

在第m步，给定当前模型，须要求解

获得，即第m棵树的参数。

（3）由于为回归问题，因此采用平方偏差损失函数，因此

由上式容易知道，为使损失函数最小，则须要

即须要拟合r,其中，

为当前模型拟合数据的残差(residual)，因此对于回归问题的提高树算法来讲，只须要简单的拟合当前模型的残差。

算法流程以下图所示：(摘自统计学习方法)

李航的《统计学习方法》中也给出了相应的例子来讲明整个解决回归问题提高树的算法流程。因为题目太长，在这我就不粘贴出来了，有须要本身去看！

7、GBDT

GBDT = GB + DT + Shringkage(一个重要演变),在了解GBDT以前，首先让我了解一下GB(Gradient Boosting,梯度提高)算法以及DT(Decision Tree)。

1.DT(Decision Tree)

首先，GBDT使用的决策树是CART回归树，不管是处理回归问题仍是二分类以及多分类，GBDT使用的决策树统统都是都是CART回归树。为何不用CART分类树呢？由于GBDT每次迭代要拟合的是梯度值，是连续值因此要用回归树。
对于回归树算法来讲最重要的是寻找最佳的划分点，那么回归树中的可划分点包含了全部特征的全部可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数，都是用纯度来衡量的，可是在回归树中的样本标签是连续数值，因此再使用熵之类的指标再也不合适，取而代之的是平方偏差，它能很好的评判拟合程度

Cart回归树生成算法(用于回归问题的Boosting Tree也须要用到Cart回归树生成算法)(有关Cart回归树以及分类树的详细知识可查看博主的上一篇博客)

2.GB(Gradient Boosting)

梯度提高树(Grandient Boosting)是提高树(Boosting Tree)的一种改进算法。

提高树利用加法模型与前向分步算法实现学习的优化过程，当损失函数是平方损失和指数损失函数时，梯度提高树每一步优化是很简单的，可是对于通常损失函数而言，每每每一步优化起来不那么容易，针对这一问题，Friedman提出了梯度提高树算法，这是利用最速降低的近似方法，其关键是利用损失函数的负梯度做为提高树算法中的残差的近似值。那么负梯度长什么样呢？第t轮的第i个样本的损失函数的负梯度为：

此时不一样的损失函数将会获得不一样的负梯度，若是选择平方损失

则负梯度为

从上述推导过程当中，能够看出当损失函数为平方损失函数时，损失函数的负梯度 = 残差。可是在GBDT中，损失函数通常不会选择平方损失函数，因此咱们利用损失函数的负梯度做为提高树算法中的残差的近似值。

3.GBDT算法

介绍完了GB和DT，将二者结合起来就获得GBDT算法。GBDT（Gradient Boosting Decision Tree）是一种迭代的决策树算法，该算法由多棵决策树组成，从名字中咱们能够看出来它是属于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。

首先必须明确一点，GBDT 使用的是绝对损失或者 Huber 损失函数，而不是平方损失函数(网上不少博客把GBDT的损失函数看成平方损失函数，这是错误的)

GBDT算法的整个流程：

一般在2(d)步骤时，GBDT会引入缩减（Shrinkage）思想

Shrinkage 的思想认为，每走一小步逐渐逼近结果的效果要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它并非彻底信任每一棵残差树。

$F_i(x)=F_{i-1}(x)+\mu f_i(x) \quad (0<\mu \leq 1) \\$

Shrinkage 不直接用残差修复偏差，而是只修复一点点，把大步切成小步。本质上 Shrinkage 为每棵树设置了一个 weight，累加时要乘以这个 weight，当 weight 下降时，基模型数会配合增大。

4.如何使用GBDT解决二分类问题？

在梯度提高决策树GBDT中，经过定义不一样的损失函数，能够完成不一样的学习任务，二分类是机器学习中一类比较重要的分类算法，对于分类问题，通常将损失函数改成指数损失(二分类)或者对数似然损失(多分类)。在二分类中，其损失函数为：

其他过程见：深刻理解GBDT二分类算法(此篇博客的博主是个大牛！@！！！！！！！)

5.与Adaboost的对比

相同点：

都是 Boosting 家族成员，使用弱分类器；
都使用前向分布算法；

不一样点：

迭代思路不一样：Adaboost 是经过提高错分数据点的权重来弥补模型的不足（利用错分样本），而 GBDT 是经过算梯度来弥补模型的不足（利用残差）；
损失函数不一样：AdaBoost 采用的是指数损失，GBDT 使用的是绝对损失或者 Huber 损失函数；

6.与Boosting Tree(提高树)的却别

在拟合值方面,GBDT用负梯度代替了BT中的残差，其本质是用泰勒一阶展开式近似值。
BT中，叶子节点的输出取平均值（由CART回归树的创建过程决定）；而GBDT叶子节点的输出须要拟合损失函数最好的输出。

8、从误差和方差的角度理解集成学习

8.1 集成学习的误差与方差

误差（Bias）描述的是预测值和真实值之差；方差（Variance）描述的是预测值做为随机变量的离散程度。放一场很经典的图：

模型的误差与方差

误差：描述样本拟合出的模型的预测结果的指望与样本真实结果的差距，要想误差表现的好，就须要复杂化模型，增长模型的参数，但这样容易过拟合，过拟合对应上图的 High Variance，点会很分散。低误差对应的点都打在靶心附近，因此喵的很准，但不必定很稳；
方差：描述样本上训练出来的模型在测试集上的表现，要想方差表现的好，须要简化模型，减小模型的复杂度，但这样容易欠拟合，欠拟合对应上图 High Bias，点偏离中心。低方差对应就是点都打的很集中，但不必定是靶心附近，手很稳，但不必定瞄的准。

咱们常说集成学习中的基模型是弱模型，一般来讲弱模型是误差高（在训练集上准确度低）方差小（防止过拟合能力强）的模型，但并非全部集成学习框架中的基模型都是弱模型。Bagging 和 Stacking 中的基模型为强模型（误差低，方差高），而Boosting 中的基模型为弱模型（误差高，方差低）。

在 Bagging 和 Boosting 框架中，经过计算基模型的指望和方差咱们能够获得模型总体的指望和方差。为了简化模型，咱们假设基模型的指望为 $\mu$ ，方差 $\sigma ^ 2$ ，模型的权重为 $r$ ，两两模型间的相关系数 $\rho$ 相等。因为 Bagging 和 Boosting 的基模型都是线性组成的，那么有：

模型整体指望：
$\begin{align} E(F) &= E(\sum_{i}^{m}{r_i f_i}) \\ &= \sum_{i}^{m}r_i E(f_i) \end{align} \\$

模型整体方差（公式推导参考协方差的性质，协方差与方差的关系）：

$\begin{align} Var(F) &= Var(\sum_{i}^{m}{r_i f_i}) \\ &= \sum_{i}^{m}Var(r_if_i) + \sum_{i \neq j}^{m}Cov(r_i f_i , r_j f_j) \\ &= \sum_{i}^{m} {r_i}^2 Var(f_i) + \sum_{i \neq j}^{m}\rho r_i r_j \sqrt{Var(f_i)} \sqrt{Var(f_j)} \\ &= mr^2\sigma^2 + m(m-1)\rho r^2 \sigma^2\\ &= m r^2 \sigma^2 (1-\rho) + m^2 r^2 \sigma^2 \rho \end{align} \\$

模型的准确度可由误差和方差共同决定：

$Error = bias^2 + var + \xi \\$

8.2 Bagging 的误差与方差

对于 Bagging 来讲，每一个基模型的权重等于 1/m 且指望近似相等，故咱们能够获得：

$\begin{align} E(F) & = \sum_{i}^{m}r_i E(f_i) \\ &= m \frac{1}{m} \mu \\ &= \mu \\ Var(F) &= m r^2 \sigma^2 (1-\rho) + m^2 r^2 \sigma^2 \rho \\ &= m \frac{1}{m^2} \sigma^2 (1-\rho) + m^2 \frac{1}{m^2} \sigma^2 \rho \\ &= \frac{\sigma^2(1 - \rho)}{m} + \sigma^2 \rho \end{align} \\$

经过上式咱们能够看到：

总体模型的指望等于基模型的指望，这也就意味着总体模型的误差和基模型的误差近似。
总体模型的方差小于等于基模型的方差，当且仅当相关性为 1 时取等号，随着基模型数量增多，总体模型的方差减小，从而防止过拟合的能力加强，模型的准确度获得提升。可是，模型的准确度必定会无限逼近于 1 吗？并不必定，当基模型数增长到必定程度时，方差公式第一项的改变对总体方差的做用很小，防止过拟合的能力达到极限，这即是准确度的极限了。

在此咱们知道了为何 Bagging 中的基模型必定要为强模型，若是 Bagging 使用弱模型则会致使总体模型的误差提升，而准确度下降。

Random Forest 是经典的基于 Bagging 框架的模型，并在此基础上经过引入特征采样和样本采样来下降基模型间的相关性，在公式中显著下降方差公式中的第二项，略微升高第一项，从而使得总体下降模型总体方差。

8.3 Boosting 的误差与方差

对于 Boosting 来讲，因为基模型共用同一套训练集，因此基模型间具备强相关性，故模型间的相关系数近似等于 1，针对 Boosting 化简公式为：

$\begin{align} E(F) & = \sum_{i}^{m}r_i E(f_i) \\ Var(F) &= m r^2 \sigma^2 (1-\rho) + m^2 r^2 \sigma^2 \rho \\ &= m \frac{1}{m^2} \sigma^2 (1-1) + m^2 \frac{1}{m^2} \sigma^2 1 \\&= \sigma^2 \end{align} \\$

经过观察总体方差的表达式咱们容易发现：

总体模型的方差等于基模型的方差，若是基模型不是弱模型，其方差相对较大，这将致使总体模型的方差很大，即没法达到防止过拟合的效果。所以，Boosting 框架中的基模型必须为弱模型。
此外 Boosting 框架中采用基于贪心策略的前向加法，总体模型的指望由基模型的指望累加而成，因此随着基模型数的增多，总体模型的指望值增长，总体模型的准确度提升。

基于 Boosting 框架的 Gradient Boosting Decision Tree 模型中基模型也为树模型，同 Random Forrest，咱们也能够对特征进行随机抽样来使基模型间的相关性下降，从而达到减小方差的效果。

决策树(中)-集成学习、RF、AdaBoost、Boost Tree、GBDT

目录

1、集成学习相关知识(Ensemble learning)

2、Bagging(装袋)

1.概念

2.流程图

3.算法流程

4.Bagging的优势

3、Random Forest(RF)(随机森林=Bagging+决策树)

1.概念

2.随机森林随机的意义表如今哪？

3.随机森林的优缺点

4.随机森林与Bagging算法的比较

4、Boosting(提高)

1.概念

2.流程图

3.Boosting的特色

4.Bagging和Boosting的区别

5、AdaBoost(只对AdaBoost作了简单的推导，具体推导细节请看统计学习方法)

1.概念

2.算法流程(摘自西瓜书与统计学习方法)

3.结合一个例子来理解整个算法的流程，这个例子摘自李航《统计学习方法》：

4.AdaBoost算法的理解

5.AdaBoost优缺点

6、Boosting tree(提高树)(年龄例子)

1.概念

2.提高树模型表示

3.多种类型提高树算法

4.用于分类问题的提高树

5.用于回归问题的提高树(推导过程，详细过程见统计学习方法)

7、GBDT

1.DT(Decision Tree)

2.GB(Gradient Boosting)

3.GBDT算法

4.如何使用GBDT解决二分类问题？

5.与Adaboost的对比

6.与Boosting Tree(提高树)的却别

8、从误差和方差的角度理解集成学习

8.1 集成学习的误差与方差

8.2 Bagging 的误差与方差

8.3 Boosting 的误差与方差