Active learning process算法
算法:主动学习算法伪代码描述函数
输入:未标记样本U,标记样本集L,学习引擎LE,采样引擎SE学习
输出:学习引擎SEspa
BeginFor:i=1,2,…,Nip
Train(LE,L); //经过标记样本集L训练分类器fit
T=Test(LE,U);io
S=Select(SE,U);sed
Label(S) ; //对集合S中的样本进行标记方法
L<—L + Sim
U<—U - S
Until 迭代次数达到某阈值,或达到其余终止条件
Active Learning
- Membership Query Synthesis
- Stream-Based Selective Sampling
- Pool-Based Active Learning
Membership Query Synthesis
- 实验者能够选择询问输入空间中任何一个未标识的实例,包括实验者本身建立的,而不单单是来自某个天然分布的实例。好的询问关系常常是易处理的或者在有限的领域内是有效的。
Stream-Based Selective Sampling
- 基于不肯定度缩减的方法(熵,信息量)
- 基于版本空间(version space)的缩减方法(QBC)
- 基于泛化偏差缩减的方法(损失函数,找偏差缩减最大的)
基于不肯定度缩减的方法
- 基准分类器选择最不能肯定其分类的实例进行标识,这种方法以信息熵做为衡量样例所含信息量大小的度量。从几何角度看这种方法优先选择靠近分类边界的实例,又称为最近边界法。
基于版本空间缩减的方法
- 选择那些训练后可以最大程度缩减版本空间的实例进行标识。(QBC)
- QBC算法从版本空间中随机选择若干假设构成一个委员会,而后选择委员会中预测分歧度最大的实例进行标注。
- 分歧度:投票熵,Jensen-Shannon分歧度,Kullback-Leibler分歧度
基于泛化偏差缩减的方法
- 选择可以是将来泛化偏差最大程度缩小的实例。
- 首先选择一种损失函数用于估计将来错误率,而后将未标识实例集中的每个实例都做为下一个可能的选择,分别估计其能给基准分类器带来的偏差缩减,选择估计偏差缩减最大的那个实例进行标识。
Uncertainty Sampling
- 选择不肯定度最大样本进行标记,正类后验几率接近0.5的实例。若是小于0.5 说明接近负类。大于0.5说明接近正类。
- 支持向量机的不肯定度实例选择则是选择询问最靠近线性决策边界的实例。
Query-By-Committee
- 委员会询问选择算法不直接计算分类偏差,而是根据本身已标识实例集训练两个或多个分类器,组成“委员会”,利用委员会对未标识实例进行标识投票,而后选择询问投票最不一致的实例。
- 计算简单,评价未标识实例,只须要一次内积运算。
Expected Model Change
- 模型指望变化的直观理解,算法倾向于选择询问对模型变化影响最大的实例. 这种方法在实验研究中表现良好。
- 若是数据集的属性或类标识数量比较多时, 计算复杂度很是高
THREE METHODS
- Variance Reduction 经过减少方差来减少实验者的将来偏差。
- Estimated Error Reduction 最小估计偏差近似最优与模型无关 计算复杂度高
- Density-Weighted Methods 信息量最大实例不仅是不肯定的并且仍是要具备表明性的。