主动学习综述(ACTIVE LEARNING)

时间 2019-11-24

标签主动学习综述 active learning 繁體版

原文原文链接

Active learning process算法

算法：主动学习算法伪代码描述函数

输入：未标记样本U,标记样本集L,学习引擎LE,采样引擎SE学习

输出：学习引擎SEspa

BeginFor：i=1,2,…,Nip

Train(LE,L); //经过标记样本集L训练分类器fit

T=Test(LE,U);io

S=Select(SE,U);sed

Label(S) ; //对集合S中的样本进行标记方法

L<—L + Sim

U<—U - S

Until 迭代次数达到某阈值，或达到其余终止条件

Active Learning

Membership Query Synthesis

实验者能够选择询问输入空间中任何一个未标识的实例，包括实验者本身建立的，而不单单是来自某个天然分布的实例。好的询问关系常常是易处理的或者在有限的领域内是有效的。

Stream-Based Selective Sampling

基于不肯定度缩减的方法

基准分类器选择最不能肯定其分类的实例进行标识，这种方法以信息熵做为衡量样例所含信息量大小的度量。从几何角度看这种方法优先选择靠近分类边界的实例，又称为最近边界法。

基于版本空间缩减的方法

基于泛化偏差缩减的方法

选择可以是将来泛化偏差最大程度缩小的实例。
首先选择一种损失函数用于估计将来错误率，而后将未标识实例集中的每个实例都做为下一个可能的选择，分别估计其能给基准分类器带来的偏差缩减，选择估计偏差缩减最大的那个实例进行标识。

Uncertainty Sampling

Query-By-Committee

委员会询问选择算法不直接计算分类偏差，而是根据本身已标识实例集训练两个或多个分类器，组成“委员会”，利用委员会对未标识实例进行标识投票，而后选择询问投票最不一致的实例。
计算简单，评价未标识实例，只须要一次内积运算。

Expected Model Change

THREE METHODS