机器学习-样本不均衡问题处理

在机器学习中,咱们获取的数据每每存在一个问题,就是样本不均匀。好比你有一个样本集合,正例有9900个,负例100个,训练的结果每每是不好的,由于这个模型总趋近因而正例的。算法

就算全是正那么,也有99%的准确率,看起来挺不错的,可是咱们要预测的负样本极可能一个都预测不出来。机器学习

这种状况,在机器学习中有三个处理办法,过采样、欠采样、再平衡(再缩放)学习

 

过采样:增长一些数据数据,使得正反例数量一致,好比这里,咱们增长负例9800个,若单纯复制这100个负例,则极可能会致使多重共线性问题,因此实际的处理方法通常根据原始数据进行一些处理。资源

好比经常使用的SMOTE算法,经过差值的方法增长样本数量。方法

 

欠采样:减小一些样本使得正反例数量一致,好比这里减小9800个正例,但这样一来就损失了不少数据资源,实际经常使用的作法是将多的样本分红不少份,用N个训练器来训练,最后去平均。数据

好比这里,咱们能够将正例分红99份100个的集合,99份分别和100个负例组合成训练集来进行训练。固然若是正负例的数量差距太大的话可能会有不少个训练器了。集合

 

再平衡:通常的分类算法训练出来是一个0-1的值,通常大于等于0.5的就是正,小于0.5的为负例。再平衡的思想就是根据正负样本数量的比例对训练结果断定的调整。模型

通用的算法是:>=正例数量/总数量,则为正;<正例数量/总数量为负

在这里咱们的断定改成9900/(9900+100)=0.99

因此预测结果当大于等于0.99时候咱们断定为是正例。

相关文章
相关标签/搜索