机器学习非平衡数据集概述

定义:不平衡数据集:在分类等问题中,正负样本,或者各个类别的样本数目不一致。 研究不平衡类通常认为不平衡意味着少数类只占比10~20%。实际上,一些数据集远比这更不平衡。例如: 每年大约有2%的信用卡账户被欺骗。(大多数欺诈检测领域严重不平衡。) 状态医疗甄别通常在大量不存在此状态的人口中检测极少数有此状态的人(比如美国的HIV携带者仅占0.4%)。 磁盘驱动器故障每年约1%。 网络广告的转化率估
相关文章
相关标签/搜索