类别不均衡问题怎么作

问题引入

类别不均衡问题是机器学习中常见的一个问题了,那么对于类别不均衡问题该如何处理呢算法

问题解答

防止类别不平衡对学习形成的影响,在构建分类模型以前,须要对分类不平衡性问题进行处理。主要解决方法有:app

一、扩大数据集机器学习

增长包含小类样本数据的数据,更多的数据能获得更多的分布信息。ide

二、对大类数据欠采样学习

减小大类数据样本个数,使与小样本个数接近。 缺点:欠采样操做时若随机丢弃大类样本,可能会丢失重要信息。 表明算法:EasyEnsemble。其思想是利用集成学习机制,将大类划分为若干个集合供不一样的学习器使用。至关于对每一个学习器都进行欠采样,但对于全局则不会丢失重要信息。大数据

三、对小类数据过采样spa

过采样:对小类的数据样本进行采样来增长小类的数据样本个数。.net

表明算法:SMOTE和ADASYN。orm

SMOTE:经过对训练集中的小类数据进行插值来产生额外的小类样本数据。blog

新的少数类样本产生的策略:对每一个少数类样本a,在a的最近邻中随机选一个样本b,而后在a、b之间的连线上随机选一点做为新合成的少数类样本。 ADASYN:根据学习难度的不一样,对不一样的少数类别的样本使用加权分布,对于难以学习的少数类的样本,产生更多的综合数据。经过减小类不平衡引入的误差和将分类决策边界自适应地转移到困难的样本两种手段,改善了数据分布。

四、使用新评价指标

若是当前评价指标不适用,则应寻找其余具备说服力的评价指标。好比准确度这个评价指标在类别不均衡的分类任务中并不适用,甚至进行误导。所以在类别不均衡分类任务中,须要使用更有说服力的评价指标来对分类器进行评价。

五、选择新算法

不一样的算法适用于不一样的任务与数据,应该使用不一样的算法进行比较。

六、数据代价加权

例如当分类任务是识别小类,那么能够对分类器的小类样本数据增长权值,下降大类样本的权值,从而使得分类器将重点集中在小类样自己上。

七、转化问题思考角度

例如在分类问题时,把小类的样本做为异常点,将问题转化为异常点检测或变化趋势检测问题。异常点检测便是对那些罕见事件进行识别。变化趋势检测区别于异常点检测在于其经过检测不寻常的变化趋势来识别。

八、将问题细化分析

对问题进行分析与挖掘,将问题划分红多个更小的问题,看这些小问题是否更容易解决。

参考:

[1] https://blog.csdn.net/u013829973/article/details/77675147

喜欢就关注一下啦~~~


图片

相关文章
相关标签/搜索