主动学习(Active Learning)

主动学习简介

在某些状况下,没有类标签的数据至关丰富而有类标签的数据至关稀少,而且人工对数据进行标记的成本又至关高昂。在这种状况下,咱们可让学习算法主动地提出要对哪些数据进行标注,以后咱们要将这些数据送到专家那里让他们进行标注,再将这些数据加入到训练样本集中对算法进行训练。这一过程叫作主动学习。算法

主动学习方法通常能够分为两部分: 学习引擎和选择引擎。学习引擎维护一个基准分类器,并使用监督学习算法对系统提供的已标注样例进行学习从而使该分类器的性能提升,而选择引擎负责运行样例选择算法选择一个未标注的样例并将其交由人类专家进行标注,再将标注后的样例加入到已标注样例集中。学习引擎和选择引擎交替工做,通过屡次循环,基准分类器的性能逐渐提升,当知足预设条件时,过程终止。函数

样例选择算法

根据得到未标注样例的方式,能够将主动学习分为两种类型:基于流的和基于池的。性能

基于流(stream-based)的主动学习中,未标记的样例按前后顺序逐个提交给选择引擎,由选择引擎决定是否标注当前提交的样例,若是不标注,则将其丢弃。学习

基于池(pool-based)的主动学习中则维护一个未标注样例的集合,由选择引擎在该集合中选择当前要标注的样例。优化

基于池的样例选择算法

1)基于不肯定度缩减的方法spa

这类方法选择那些当前基准分类器最不能肯定其分类的样例进行标注。这类方法以信息熵做为衡量样例所含信息量大小的度量,而信息熵最大的样例正是当前分类器最不能肯定其分类的样例。从几何角度看,这种方法优先选择靠近分类边界的样例。文档

2)基于版本缩减的方法it

这类方法选择那些训练后可以最大程度缩减版本空间的样例进行标注。在二值分类问题中,这类方法选择的样例老是差很少平分版本空间。class

表明:QBC算法stream

QBC算法从版本空间中随机选择若干假设构成一个委员会,而后选择委员会中的假设预测分歧最大的样例进行标注。为了优化委员会的构成,能够采用Bagging,AdaBoost等分类器集成算法从版本空间中产生委员会。

3)基于泛化偏差缩减的方法

这类方法试图选择那些可以使将来泛化偏差最大程度减少的样例。其通常过程为:首先选择一个损失函数用于估计将来错误率,而后将未标注样例集中的每个样例都分别估计其能给基准分类器带来的偏差缩减,选择估计值最大的那个样例进行标注。

这类方法直接针对分类器性能的最终评价指标,可是计算量较大,同时损失函数的精度对性能影响较大。

4)其它方法

COMB算法:组合三种不一样的学习器,迅速切换到当前性能最好的学习器从而使选择样例尽量高效。

多视图主动学习:用于学习问题为多视图学习的状况,选择那些使不一样视图的预测分类不一致的样例进行学习。这种方法对于处理高维的主动学习问题很是有效。

预聚类主动学习:预先运行聚类算法预处理,选择样例时优先选择最靠近分类边界的样例和最能表明聚类的样例(即聚类中心)。

基于流的样例选择算法

基于池的算法大多能够经过调整以适应基于流的状况。但因为基于流的算法不能对未标注样例逐一比较,须要对样例的相应评价指标设定阈值,当提交给选择引擎的样例评价指标超过阈值,则进行标注,但这种方法须要针对不一样的任务进行调整,因此难以做为一种成熟的方法投入使用。

QBC曾用于解决基于流的主动学习问题。样例以流的形式连续提交给选择引擎,选择引擎选择那些委员会(此处委员会只由两个成员分类器组成)中的成员分类器预测不一致的样例进行标注。

应用

文档分类和信息提取

以贝叶斯方法位基准分类器,使用基于不肯定度缩减的样例选择算法进行文本分类。

将EM算法同基于QBC方法的主动学习集合。EM算法可以有效的利用未标注样例中的信息提升基准分类器的分类正确率。而QBC方法可以迅速缩减版本空间。

图像检索

利用SVM做为基准分类器的主动学习算法来处理图像检索。该算法采用最近边界方法做为样例选择算法,同时将图像的颜色、纹理等提取出来做为部分特征进行学习。

入侵检测

因为入侵检测系统较多地依赖专家知识和有效的数据集,因此能够采用主动学习算法下降这种依赖性。

相关文章
相关标签/搜索