机器学习超详细实践攻略(21):三板斧干掉样本不均衡问题之1——过(欠)采样

想象一下,假现在天是你做为数据分析师入职的第一天,老板交给你一个数据分析任务:经过公司已经有的信用卡用户和交易信息,预测用户将来是否会逾期还款。html 这个问题看似简单,实则隐藏了一个很是大的坑:据粗略估计,全国的信用卡平均不良率只有不到1%,也就是说,银行贷出100万,可能只有1万没有办法正常收回,这样,若是你拿到一个信用卡还款数据集,很大多是这个数据集里有99%的正样本,1%的负样本,在预测
相关文章
相关标签/搜索