提高方法是一种经常使用的统计学习方法,应用十分普遍且有效。在分类问题中,它经过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提升分类的性能。提高算法基于这样一种思路:对于一个复杂任务来讲,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家专断的判断好。实际上,就是“三个臭皮匠顶个诸葛亮”的道理。算法
历史上,Kearns和Valiant首先提出了“强可学习(Strongly learnable)”和“弱可学习(Weekly learnable)”的概念。支出:在几率近似正确(probably approximately correct,PAC)学习框架中,一个概念(一个分类),若是存在一个多项式的学习算法可以学习它,而且正确率很好,那么就称这个概念是强可学习的;一个概念(一个分类),若是存在一个多项式的学习算法可以学习它,但学习的正确率仅比随机猜想略好,那么就称这个概念是弱可学习的。很是有趣的是Schapire后来证实强可学习与弱可学习是等价的,也就是说,在PAC学习框架下,一个概念是强可学习的充要条件是这个概念是弱可学习的。api
这样一来,问题便成为,在学习中,若是已经发现了“弱学习算法”,那么可否将它提高(boost)为“强学习算法”。你们知道,发现弱学习算法一般要比发现强学习算法容易得多。那么如何具体实施提高,便成为开发提高方法时所要解决的问题。关于提高方法的研究不少,有不少算法被提出,最具表明性的是AdaBoost算法(Adaboost algorithm)。app
对与分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提高方法就是从弱学习算法出发,反复学习,获得一系列分类器,而后组合这些分类器,构成一个强分类器。框架
这样,对于提高算法来讲,有两个问题须要回答:一是在每一轮如何改变训练数据的权值分布;二是如何将弱分类器组合成一个强分类器。函数
Boosting算法要涉及到两个部分,加法模型和前向分步算法。性能
(1) 加法模型就是说强分类器由一系列弱分类器线性相加而成。通常组合形式以下:学习
$F_M(x;P)=\sum_{m=1}^n\alpha _mh(x;\theta_m)$spa
其中$h(x;\theta_m)$是一个个的弱分类器,$\theta_m$是弱分类器学习到的最优参数;$\alpha_m$就是若学习在强分类器中所占的比重;$P$是全部$\alpha_m$和$\theta_m$的组合。这些弱分类器线性相加组成强分类器。
.net
(2) 前向分布就是说在训练过程当中,下一轮迭代产生的分类器是在上一轮的基础上训练得来的。也就是能够协成这样的形式:设计
$F_m (x)=F_{m-1}(x)+\alpha _mh(x;\theta_m)$
因为采用的损失函数不一样,Boosting算法也所以有了不一样的类型,AdaBoost就是损失函数为指数损失的Boosting算法。
1) 提升那些被前一轮弱分类器错误分类的样本的权值,下降那些被正确分类的样本的权值;
2) 采用加权多数表决的方法。具体的,加大分类偏差率小的弱分类器的权值,使其在表决中起较大的做用;减少分类偏差率大的弱分类器的权值,使其在表决中起较小的做用。
输入:训练数据集$T=\{(x_1, y_1),(x_2, y_2),(x_3, y_3),...(x_n, y_n)\}$,其中$x_i\in X\subseteq \mathbb{R}^{n},y_i\in Y=\{-1,+1\}$,$Y=\{-1, +1\}$是弱分类算法。
输出:最终分类器$G_m(x)$
初始化:假定第一次训练时,样本均匀分布权值同样。
$D_1=(w_{11}, w_{12},w_{13}......w_{1n})$
其中$w_{1i}=\frac{1}{n},i=1,2,3...n$
循环:m=1,2,3...M,
(a) 使用具备权值分布$D_m$的训练数据集学习,获得基本分类器$G_m$(选取让偏差率最低的阈值来设计基本分类器):
$G_m(x):\chi \rightarrow \{-1, +1\}$
(b) 计算$G_m(x)$在训练集上的分类偏差率$e_m$
$e_m=P(G_m(x_i)\neq y_i)=\sum_{i=1}^{n}w_{mi}I(G_m(x_i)\neq y_i)$
$I(G_m(x_i)\neq y_i)$:当$G_m(x_i)$与$y_i$相等时,函数取值为0;当$G_m(x_i)$与$y_i$不相等时,取值为1;。
由上述式子可知,$G_m(x)$在训练数据集上的偏差率$e_m$就是被$G_m(x)$误分类样本的权值之和。
(c) 计算$G_m(x)$的系数$\alpha_m$,$\alpha_m$表示$G_m(x)$在最终分类器中的重要程度:
$\alpha_m = \frac{1}{2}ln\frac{1-e_m}{e_m}$
【注】显然$e_m <= 1/2$时,$\alpha_mam >= 0$,且$\alpha_m$随着$e_m$的减少而增大,意味着分类偏差率越小的基本分类器在最终分类器中的做用越大
此时分类器为:$f_m(x)=\alpha_mG_m(x)$
(d) 更新训练数据集的权值分布,用于下一轮迭代。
$D_{m+1}=(w_{m+1,1},w_{m+1,2},w_{m+1,3},...w_{m+1,n})$
$w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-y_i\alpha_mG_m(x_i))$,$i=1,2,3,...n$
其中$Z_m$是规范化因子,使得$D_{m+1}$成为一个几率分布。
$Z_m=\sum_{i=1}^{n}w_{mi}exp(-y_i\alpha_mG_m(x_i))$
循环结束条件:
$e_m$小于某个阈值(通常是0.5),或是达到最大迭代次数。
AdaBoost 方法中使用的分类器可能很弱(好比出现很大错误率),但只要它的分类效果比随机好一点(好比两类问题分类错误率略小于0.5),就可以改善最终获得的模型。
组合分类器:
$f(x)=\sum_{m=1}^{M}\alpha_mG_m(x)$
最终分类器:
$G_m(x)=sign(f(x))=sign(\sum_{i=1}^{M}\alpha_mG_m(x))$
假定给出下列训练样本。
序号 | i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
初始化:$w_{1i}=\frac{1}{n}=0.1$,n=10(样本个数)
序号 |
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
初始权值 | $w_{1i}$ | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 |
阈值猜想:观察数据,能够发现数据分为两类:-1和1,其中数据“0,1,2”对应“1”类,数据“3,4,5”对应“-1”类,数据“6,7,8”对应“1”类,数据“9”对应“"1”类。抛开单个的数据“9”,能够找到对应的数据分界点(便可能的阈值),好比:2.五、5.五、8.5(通常0.5的往上加,也能够是其余数)。而后计算每一个点的偏差率,选最小的那个做为阈值。
但在实际操做中,能够每一个数据点都作为阈值,而后就算偏差率,保留偏差率最小的那个值。若偏差率有大于0.5的就取反(分类换一下,若大于取1,取反后就小于取1),再计算偏差率。
迭代过程1:m=1
1> 肯定阈值的取值及偏差率
由上面可知,阈值取2.5 或8.5时,偏差率同样,因此能够任选一个做为基本分类器。这里选2.5为例。
$G_1(x)=\begin{cases}1, &x<2.5 \\-1, & x>2.5 \end{cases}$
计算偏差率:
序号 | i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
分类器结果 | $G_1(x)$ | 1 | 1 | 1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 |
分类结果 | 对 | 对 | 对 | 对 | 对 | 对 | 错 | 错 | 错 | 对 |
从上可得$G_1(x)$在训练数据集上的偏差率(被分错类的样本的权值之和):
$e_1=P(G_1(x_i)\neq y_i)=\sum_{G_1(x_i)\neq y_i}w_{1i}=0.1+0.1+0.1=0.3$
2> 计算$G_1(x)$的系数:
$\alpha_1=\frac{1}{2}ln\frac{1-e_1}{e_1}=\frac{1}{2}ln\frac{1-0.3}{0.3}\approx 0.42365$
这个$\alpha_1$表明$G_1(x)$在最终的分类函数中所占的比重约为0.42365
3> 分类函数
$f_1(x)=\alpha_1G_1(x)=0.42365G_1(x)$
4> 更新权值分布:
序号 |
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
初始权值1 | $w_{1i}$ | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 |
更新权值2 | $w_{2i}$ | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.16666 | 0.16666 | 0.16666 | 0.07143 |
由上面能够看出,由于数据“6,7,8”被$G_1(x)$分错了,因此它们的权值由初始的0.1增大到了0.16666;其余的数据因为被分对了,因此权值由0.1减少到0.07143。
迭代过程2:m=2
1> 肯定阈值的取值及偏差率
由上面可知,阈值取8.5时,偏差率最小,因此:
$G_2(x)=\begin{cases}1, &x<8.5 \\-1, & x>8.5 \end{cases}$
计算偏差率:
序号 | i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
权值分布 | $w_{2i}$ | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.16666 | 0.16666 | 0.16666 | 0.07143 |
分类器结果 | $G_2(x)$ | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 |
分类结果 | 对 | 对 | 对 | 错 | 错 | 错 | 对 | 对 | 对 | 对 |
从上可得$G_2(x)$在训练数据集上的偏差率(被分错类的样本的权值之和):
$e_2=P(G_2(x_i)\neq y_i)=\sum_{G_2(x_i)\neq y_i}w_{2i}=0.07143+0.07143+0.07143=0.21429$
2> 计算$G_2(x)$的系数:
$\alpha_2=\frac{1}{2}ln\frac{1-e_2}{e_2}=\frac{1}{2}ln\frac{1-0.21429}{0.21429}\approx 0.64963$
这个$\alpha_2$表明$G_2(x)$在最终的分类函数中所占的比重约为0.649263
3> 分类函数
$f_2(x)=\alpha_2G_2(x)=0.64963G_2(x)$
4> 更新权值分布:
序号 |
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
初始权值1 | $w_{1i}$ | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 |
权值2 | $w_{2i}$ | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.16666 | 0.16666 | 0.16666 | 0.07143 |
更新权值3 | $w_{3i} | 0.04546 | 0.04546 | 0.04546 | 0.16667 | 0.16667 | 0.16667 | 0.10606 | 0.10606 | 0.10606 | 0.04546 |
迭代过程3:m=3
1> 肯定阈值的取值及偏差率
由上面可知,阈值取8.5时,偏差率最小,但8.5取过了,因此取5.5:
$G_3(x)=\begin{cases}-1, &x<5.5 \\1, & x>5.5 \end{cases}$
计算偏差率:
序号 | i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
权值分布 | $w_{3i}$ | 0.04546 | 0.04546 | 0.04546 | 0.16667 | 0.16667 | 0.16667 | 0.10606 | 0.10606 | 0.10606 | 0.04546 |
分类器结果 | $G_3(x)$ | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 |
分类结果 | 错 | 错 | 错 | 对 | 对 | 对 | 对 | 对 | 对 | 错 |
从上可得$G_3(x)$在训练数据集上的偏差率(被分错类的样本的权值之和):
$e_3=P(G_3(x_i)\neq y_i)=\sum_{G_3(x_i)\neq y_i}w_{3i}=0.04546+0.04546+0.04546+04546=0.18184$
2> 计算$G_3(x)$的系数:
$\alpha_3=\frac{1}{2}ln\frac{1-e_3}{e_3}=\frac{1}{2}ln\frac{1-0.18188}{0.18184}\approx 0.75197$
这个$\alpha_3$表明$G_3(x)$在最终的分类函数中所占的比重约为0.75197
3> 分类函数
$f_3(x)=\alpha_3G_3(x)=0.75197G_3(x)$
4> 更新权值分布:
序号 |
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
数据 | x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
类别标签 | y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
初始权值1 | $w_{1i}$ | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 |
权值2 | $w_{2i}$ | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.16666 | 0.16666 | 0.16666 | 0.07143 |
权值3 | $w_{3i} | 0.04546 | 0.04546 | 0.04546 | 0.16667 | 0.16667 | 0.16667 | 0.10606 | 0.10606 | 0.10606 | 0.04546 |
更新权值4 | $w_{4i} | 0.12500 | 0.12500 | 0.12500 | 0.10185 | 0.10185 | 0.10185 | 0.06481 | 0.06481 | 0.06481 | 0.12500 |
迭代过程4:m=4
此时观察数据,每次迭代被分错的数据都已经从新分配过权值,按其余参考资料来讲,此时的偏差率为0,因此迭代能够到此结束。
最终分类器:
$G_m(x)=sign(0.42365G_1(x)+0.64963G_2(x)0.75197G_3(x))$
---------------------
参考文献:
原文:https://blog.csdn.net/gyqjn/article/details/45501185