主动学习介绍

主动学习(Active Learning)介绍

 

 

咱们使用一些传统的监督学习方法作分类的时候,每每是训练样本规模越大,分类的效果就越好。可是在现实生活的不少场景中,标记样本的获取是比较困难的,这须要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。并且,若是训练样本的规模过于庞大,训练的时间花费也会比较多。那么有没有办法,可以使用较少的训练样本来得到性能较好的分类器呢?主动学习(Active Learning)为咱们提供了这种可能。主动学习经过必定的算法查询最有用的未标记样本,并交由专家进行标记,而后用查询到的样本训练分类模型来提升模型的精确度。算法

在人类的学习过程当中,一般利用已有的经验来学习新的知识,又依靠得到的知识来总结和积累经验,经验与知识不断交互。一样,机器学习模拟人类学习的过程,利用已有的知识训练出模型去获取新的知识,并经过不断积累的信息去修正模型,以获得更加准确有用的新模型。不一样于被动学习被动的接受知识,主动学习可以选择性地获取知识,机器学习

主动学习的模型以下:函数

A=(C,Q,S,L,U),性能

其中 C 为一组或者一个分类器,L是用于训练已标注的样本。Q 是查询函数,用于从未标注样本池U中查询信息量大的信息,S是督导者,能够为U中样本标注正确的标签。学习者经过少许初始标记样本L开始学习,经过必定的查询函数Q选择出一个或一批最有用的样本,并向督导者询问标签,而后利用得到的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程,直至达到某一中止准则为止。学习

 
 

刚才说到查询函数Q用于查询一个或一批最有用的样本。那么,什么样的样本是有用的呢?即查询函数查询的是什么样的样本呢?在各类主动学习方法中,查询函数的设计最经常使用的策略是:不肯定性准则(uncertainty)和差别性准则(diversity)。设计

对于不肯定性,咱们能够借助信息熵的概念来进行理解。咱们知道信息熵是衡量信息量的概念,也是衡量不肯定性的概念。信息熵越大,就表明不肯定性越大,包含的信息量也就越丰富。事实上,有些基于不肯定性的主动学习查询函数就是使用了信息熵来设计的,好比熵值装袋查询(Entropy query-by-bagging)。因此,不肯定性策略就是要千方百计地找出不肯定性高的样本,由于这些样本所包含的丰富信息量,对咱们训练模型来讲就是有用的。orm

那么差别性怎么来理解呢?以前说到或查询函数每次迭代中查询一个或者一批样本。咱们固然但愿所查询的样本提供的信息是全面的,各个样本提供的信息不重复不冗余,即样本之间具备必定的差别性。在每轮迭代抽取单个信息量最大的样本加入训练集的状况下,每一轮迭代中模型都被从新训练,以新得到的知识去参与对样本不肯定性的评估能够有效地避免数据冗余。可是若是每次迭代查询一批样本,那么就应该想办法来保证样本的差别性,避免数据冗余get



连接:https://www.jianshu.com/p/e908c3595fc0

 

主动学习-Active Learning:如何减小标注代价

https://zhuanlan.zhihu.com/p/39367595
 

主动学习(Active Learning)-少标签数据学习

https://zhuanlan.zhihu.com/p/79764678it

相关文章
相关标签/搜索