处理不平衡样本集的采样方法

在训练二分类模型时,例如医疗诊断、网络入侵检测、信用卡反诈骗等,经常会遇到正负样本不均衡的问题。对于分类算法,如果直接采用不平衡的样本集进行训练学习,会存在一些问题。例如,如果正负样本比例达到1:99,则分类器简单地将所有样本都判定为负样本能达到99%的正确率,显然这并不是我们想要的,我们想让分类器在正样本和负样本上都有足够的准确率和召回率。 为什么很多分类模型在训练数据不均衡时会出现问题? 本质
相关文章
相关标签/搜索