PULearning的应用场景是,咱们能够清晰地肯定正样本,可是不能肯定负样本,由于它有多是正样本,只是咱们尚未证实。app
这时咱们能够把这部分不肯定的样本称为无标签样本U,加上正样本P来创建模型。机器学习
问题能够转化为一个有约束条件的最优化问题:学习
在保证正例中错误率低于1-r的条件下,最小化无标签样本中U的正例数目。优化
创建PU分类器有两种方法:spa
两步方法two- step approachblog
直接方法direct approach方法
two-step approach:im
第一阶段:从未标记实例中选择可靠的负例集RN,作法是:数据
在P中随机选取一部分正例S加入U中,这时两个数据集是P-S,咱们叫作ps,和U+S,咱们叫作us,用ps和us训练一个模型gmargin
而后用g对无标签样本U作分类,获得每一个样本的几率,设定一个阈值a,若是样本几率低于a那么咱们认为是一个可靠负例
步骤:
第二阶段:利用正例P和可靠负例RN,训练一个传统的机器学习分类模型,用来预测新样本。