Adaboost算法流程及示例

时间 2019-12-11

原文原文链接

1. Boosting提高方法（源自统计学习方法)

提高方法是一种经常使用的统计学习方法，应用十分普遍且有效。在分类问题中，它经过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提升分类的性能。提高算法基于这样一种思路：对于一个复杂任务来讲，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家专断的判断好。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。算法

历史上，Kearns和Valiant首先提出了“强可学习（Strongly learnable）”和“弱可学习（Weekly learnable）”的概念。支出：在几率近似正确（probably approximately correct，PAC）学习框架中，一个概念（一个分类），若是存在一个多项式的学习算法可以学习它，而且正确率很好，那么就称这个概念是强可学习的；一个概念（一个分类），若是存在一个多项式的学习算法可以学习它，但学习的正确率仅比随机猜想略好，那么就称这个概念是弱可学习的。很是有趣的是Schapire后来证实强可学习与弱可学习是等价的，也就是说，在PAC学习框架下，一个概念是强可学习的充要条件是这个概念是弱可学习的。api

这样一来，问题便成为，在学习中，若是已经发现了“弱学习算法”，那么可否将它提高（boost）为“强学习算法”。你们知道，发现弱学习算法一般要比发现强学习算法容易得多。那么如何具体实施提高，便成为开发提高方法时所要解决的问题。关于提高方法的研究不少，有不少算法被提出，最具表明性的是AdaBoost算法（Adaboost algorithm）。app

对与分类问题而言，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比求精确的分类规则（强分类器）容易得多。提高方法就是从弱学习算法出发，反复学习，获得一系列分类器，而后组合这些分类器，构成一个强分类器。框架

这样，对于提高算法来讲，有两个问题须要回答：一是在每一轮如何改变训练数据的权值分布；二是如何将弱分类器组合成一个强分类器。函数

Boosting算法要涉及到两个部分，加法模型和前向分步算法。性能

(1) 加法模型就是说强分类器由一系列弱分类器线性相加而成。通常组合形式以下：学习

$F_M(x;P)=\sum_{m=1}^n\alpha _mh(x;\theta_m)$spa

其中$h(x;\theta_m)$是一个个的弱分类器，$\theta_m$是弱分类器学习到的最优参数；$\alpha_m$就是若学习在强分类器中所占的比重；$P$是全部$\alpha_m$和$\theta_m$的组合。这些弱分类器线性相加组成强分类器。
.net

(2) 前向分布就是说在训练过程当中，下一轮迭代产生的分类器是在上一轮的基础上训练得来的。也就是能够协成这样的形式：设计

$F_m (x)=F_{m-1}(x)+\alpha _mh(x;\theta_m)$

因为采用的损失函数不一样，Boosting算法也所以有了不一样的类型，AdaBoost就是损失函数为指数损失的Boosting算法。

2. Adaboost算法

Adaboost算法思想：

1) 提升那些被前一轮弱分类器错误分类的样本的权值，下降那些被正确分类的样本的权值；

2) 采用加权多数表决的方法。具体的，加大分类偏差率小的弱分类器的权值，使其在表决中起较大的做用；减少分类偏差率大的弱分类器的权值，使其在表决中起较小的做用。

Adaboost算法流程：

输入：训练数据集$T=\{(x_1, y_1),(x_2, y_2),(x_3, y_3),...(x_n, y_n)\}$，其中$x_i\in X\subseteq \mathbb{R}^{n},y_i\in Y=\{-1,+1\}$,$Y=\{-1, +1\}$是弱分类算法。

输出：最终分类器$G_m(x)$

初始化：假定第一次训练时，样本均匀分布权值同样。

$D_1=(w_{11}, w_{12},w_{13}......w_{1n})$

其中$w_{1i}=\frac{1}{n},i=1,2,3...n$

循环：m=1,2,3...M，

(a) 使用具备权值分布$D_m$的训练数据集学习，获得基本分类器$G_m$（选取让偏差率最低的阈值来设计基本分类器）：

$G_m(x):\chi \rightarrow \{-1, +1\}$

(b) 计算$G_m(x)$在训练集上的分类偏差率$e_m$

$e_m=P(G_m(x_i)\neq y_i)=\sum_{i=1}^{n}w_{mi}I(G_m(x_i)\neq y_i)$

$I(G_m(x_i)\neq y_i)$：当$G_m(x_i)$与$y_i$相等时，函数取值为0；当$G_m(x_i)$与$y_i$不相等时，取值为1;。

由上述式子可知，$G_m(x)$在训练数据集上的偏差率$e_m$就是被$G_m(x)$误分类样本的权值之和。

$\alpha_m = \frac{1}{2}ln\frac{1-e_m}{e_m}$

【注】显然$e_m <= 1/2$时，$\alpha_mam >= 0$，且$\alpha_m$随着$e_m$的减少而增大，意味着分类偏差率越小的基本分类器在最终分类器中的做用越大

此时分类器为：$f_m(x)=\alpha_mG_m(x)$

(d) 更新训练数据集的权值分布，用于下一轮迭代。

$D_{m+1}=(w_{m+1,1},w_{m+1,2},w_{m+1,3},...w_{m+1,n})$

$w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-y_i\alpha_mG_m(x_i))$，$i=1,2,3,...n$

其中$Z_m$是规范化因子，使得$D_{m+1}$成为一个几率分布。

$Z_m=\sum_{i=1}^{n}w_{mi}exp(-y_i\alpha_mG_m(x_i))$

循环结束条件：

$e_m$小于某个阈值（通常是0.5），或是达到最大迭代次数。

AdaBoost 方法中使用的分类器可能很弱（好比出现很大错误率），但只要它的分类效果比随机好一点（好比两类问题分类错误率略小于0.5），就可以改善最终获得的模型。

组合分类器：

$f(x)=\sum_{m=1}^{M}\alpha_mG_m(x)$

最终分类器：

$G_m(x)=sign(f(x))=sign(\sum_{i=1}^{M}\alpha_mG_m(x))$

3. Adaboost示例

假定给出下列训练样本。

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1

初始化：$w_{1i}=\frac{1}{n}=0.1$，n=10（样本个数)

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1

阈值猜想：观察数据，能够发现数据分为两类：-1和1，其中数据“0,1,2”对应“1”类，数据“3,4,5”对应“-1”类，数据“6,7,8”对应“1”类，数据“9”对应“"1”类。抛开单个的数据“9”，能够找到对应的数据分界点（便可能的阈值），好比：2.五、5.五、8.5（通常0.5的往上加，也能够是其余数）。而后计算每一个点的偏差率，选最小的那个做为阈值。

但在实际操做中，能够每一个数据点都作为阈值，而后就算偏差率，保留偏差率最小的那个值。若偏差率有大于0.5的就取反（分类换一下，若大于取1，取反后就小于取1），再计算偏差率。

迭代过程1：m=1

1> 肯定阈值的取值及偏差率

当阈值取2.5时，偏差率为0.3。即 x<2.5 时取 1，x>2.5 时取 -1，则数据六、七、8分错，偏差率为0.3（简单理解：10个里面3个错的，真正偏差率计算看下面的表格）
当阈值取5.5时，偏差率最低为0.4。即 x<5.5 时取1，x>5.5 时取 -1，则数据三、四、五、六、七、8分错，错误率为0.6>0.5，故反过来，令 x>5.5 取 1，x<5.5 时取 -1，则数据0、一、二、9分错，偏差率为0.4
当阈值取8.5时，偏差率为0.3。即 x<8.5 时取1，x>8.5 时取 -1，则数据三、四、5分错，错误率为0.3

由上面可知，阈值取2.5 或8.5时，偏差率同样，因此能够任选一个做为基本分类器。这里选2.5为例。

$G_1(x)=\begin{cases}1, &x<2.5 \\-1, & x>2.5 \end{cases}$

计算偏差率：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
分类器结果	$G_1(x)$	1	1	1	-1	-1	-1	-1	-1	-1	-1
分类结果		对	对	对	对	对	对	错	错	错	对

从上可得$G_1(x)$在训练数据集上的偏差率（被分错类的样本的权值之和）:

$e_1=P(G_1(x_i)\neq y_i)=\sum_{G_1(x_i)\neq y_i}w_{1i}=0.1+0.1+0.1=0.3$

2> 计算$G_1(x)$的系数：

$\alpha_1=\frac{1}{2}ln\frac{1-e_1}{e_1}=\frac{1}{2}ln\frac{1-0.3}{0.3}\approx 0.42365$

这个$\alpha_1$表明$G_1(x)$在最终的分类函数中所占的比重约为0.42365

3> 分类函数

$f_1(x)=\alpha_1G_1(x)=0.42365G_1(x)$

4> 更新权值分布：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值1	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1
更新权值2	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143

由上面能够看出，由于数据“6,7,8”被$G_1(x)$分错了，因此它们的权值由初始的0.1增大到了0.16666；其余的数据因为被分对了，因此权值由0.1减少到0.07143。

迭代过程2：m=2

1> 肯定阈值的取值及偏差率

当阈值取2.5时，偏差率为0.49998。即 x<2.5 时取 1，x>2.5 时取 -1，则数据六、七、8分错，偏差率为0.16666*3（取过，不列入考虑范围）
当阈值取5.5时，偏差率最低为0.28572。即 x<5.5 时取1，x>5.5 时取 -1，则数据三、四、五、六、七、8分错，错误率为0.07143*3+0.16666*3=0.71427>0.5，故反过来，令 x>5.5 取 1，x<5.5 时取 -1，则数据0、一、二、9分错，偏差率为0.07143*4=0.28572
当阈值取8.5时，偏差率为0.21429。即 x<8.5 时取1，x>8.5 时取 -1，则数据三、四、5分错，错误率为0.07143*3=0.21429

由上面可知，阈值取8.5时，偏差率最小，因此：

$G_2(x)=\begin{cases}1, &x<8.5 \\-1, & x>8.5 \end{cases}$

计算偏差率：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
权值分布	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143
分类器结果	$G_2(x)$	1	1	1	1	1	1	1	1	1	-1
分类结果		对	对	对	错	错	错	对	对	对	对

从上可得$G_2(x)$在训练数据集上的偏差率（被分错类的样本的权值之和）:

$e_2=P(G_2(x_i)\neq y_i)=\sum_{G_2(x_i)\neq y_i}w_{2i}=0.07143+0.07143+0.07143=0.21429$

2> 计算$G_2(x)$的系数：

$\alpha_2=\frac{1}{2}ln\frac{1-e_2}{e_2}=\frac{1}{2}ln\frac{1-0.21429}{0.21429}\approx 0.64963$

这个$\alpha_2$表明$G_2(x)$在最终的分类函数中所占的比重约为0.649263

3> 分类函数

$f_2(x)=\alpha_2G_2(x)=0.64963G_2(x)$

4> 更新权值分布：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值1	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1
权值2	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143
更新权值3	$w_{3i}	0.04546	0.04546	0.04546	0.16667	0.16667	0.16667	0.10606	0.10606	0.10606	0.04546

迭代过程3：m=3

1> 肯定阈值的取值及偏差率

当阈值取2.5时，偏差率为0.31818。即 x<2.5 时取 1，x>2.5 时取 -1，则数据六、七、8分错，偏差率为0.10606*3=0.31818（取过，不列入考虑范围）
当阈值取5.5时，偏差率最低为0.18184。即 x<5.5 时取1，x>5.5 时取 -1，则数据三、四、五、六、七、8分错，错误率为0.16667*3+0.10606*3=0.81819>0.5，故反过来，令 x>5.5 取 1，x<5.5 时取 -1，则数据0、一、二、9分错，偏差率为0.04546*4=0.18184
当阈值取8.5时，偏差率为0.13638。即 x<8.5 时取1，x>8.5 时取 -1，则数据三、四、5分错，错误率为0.04546*3=0.13638（取过，不列入考虑范围）

由上面可知，阈值取8.5时，偏差率最小，但8.5取过了，因此取5.5：

$G_3(x)=\begin{cases}-1, &x<5.5 \\1, & x>5.5 \end{cases}$

计算偏差率：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
权值分布	$w_{3i}$	0.04546	0.04546	0.04546	0.16667	0.16667	0.16667	0.10606	0.10606	0.10606	0.04546
分类器结果	$G_3(x)$	-1	-1	-1	-1	-1	-1	1	1	1	1
分类结果		错	错	错	对	对	对	对	对	对	错

从上可得$G_3(x)$在训练数据集上的偏差率（被分错类的样本的权值之和）:

$e_3=P(G_3(x_i)\neq y_i)=\sum_{G_3(x_i)\neq y_i}w_{3i}=0.04546+0.04546+0.04546+04546=0.18184$

2> 计算$G_3(x)$的系数：

$\alpha_3=\frac{1}{2}ln\frac{1-e_3}{e_3}=\frac{1}{2}ln\frac{1-0.18188}{0.18184}\approx 0.75197$

这个$\alpha_3$表明$G_3(x)$在最终的分类函数中所占的比重约为0.75197

3> 分类函数

$f_3(x)=\alpha_3G_3(x)=0.75197G_3(x)$

4> 更新权值分布：

序号	i	1	2	3	4	5	6	7	8	9	10
数据	x	0	1	2	3	4	5	6	7	8	9
类别标签	y	1	1	1	-1	-1	-1	1	1	1	-1
初始权值1	$w_{1i}$	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1
权值2	$w_{2i}$	0.07143	0.07143	0.07143	0.07143	0.07143	0.07143	0.16666	0.16666	0.16666	0.07143
权值3	$w_{3i}	0.04546	0.04546	0.04546	0.16667	0.16667	0.16667	0.10606	0.10606	0.10606	0.04546
更新权值4	$w_{4i}	0.12500	0.12500	0.12500	0.10185	0.10185	0.10185	0.06481	0.06481	0.06481	0.12500

迭代过程4：m=4

此时观察数据，每次迭代被分错的数据都已经从新分配过权值，按其余参考资料来讲，此时的偏差率为0，因此迭代能够到此结束。

最终分类器：

$G_m(x)=sign(0.42365G_1(x)+0.64963G_2(x)0.75197G_3(x))$

---------------------
参考文献：
原文：https://blog.csdn.net/gyqjn/article/details/45501185