非均衡样本处理的心法

  身处大数据时代,对模型和风控工作者来说无异于福音。但与此同时,数据呈现长尾分布,不均衡分布导致训练困难,效果不佳。具体到风控场景中,负样本的占比要远远小于正样本的占比。考虑一个简单的例子,假设有10万个样本,其中逾期客户500个,坏样本占比0.5%。如果我们直接将数据输入模型进行训练,将导致即便全部判断为正,准确率也能达到99.5%,在梯度下降过程中,正样本压倒性的影响,模型难以收敛到最优点。
相关文章
相关标签/搜索