positive-unlabeled (PU) learning

时间 2019-11-11

标签 positive unlabeled learning 繁體版

原文原文链接

PULearning的应用场景是，咱们能够清晰地肯定正样本，可是不能肯定负样本，由于它有多是正样本，只是咱们尚未证实。app

这时咱们能够把这部分不肯定的样本称为无标签样本U，加上正样本P来创建模型。机器学习

问题能够转化为一个有约束条件的最优化问题：学习

在保证正例中错误率低于1-r的条件下，最小化无标签样本中U的正例数目。优化

创建PU分类器有两种方法：spa

两步方法two- step approachblog

直接方法direct approach方法

two-step approach:im

第一阶段：从未标记实例中选择可靠的负例集RN，作法是：数据

在P中随机选取一部分正例S加入U中，这时两个数据集是P-S，咱们叫作ps，和U+S，咱们叫作us，用ps和us训练一个模型gmargin

而后用g对无标签样本U作分类，获得每一个样本的几率，设定一个阈值a，若是样本几率低于a那么咱们认为是一个可靠负例

步骤：

第二阶段：利用正例P和可靠负例RN，训练一个传统的机器学习分类模型，用来预测新样本。