机器学习分类问题中,数据不均衡时的解决方法

数据不均衡是指数据集中每种类别的数据的数量相差比较大。比如一个数据集S中,a类数据有100个,b类有1个,一般相差一个以上数量级的就算是数据不均衡了,需要进行预处理。 数据不均衡会导致最终的分类结果有偏差。同样以数据集S作为说明,如果不作任何处理直接用S作为训练数据,那么用训练模型对一个新的数据进行测试,得到的结果将有约100/(100+1)即近似为1的概率被预测为类别a,而被预测为b类的概率只有
相关文章
相关标签/搜索