机器学习样本不平衡如何处理?

问:在机器学习训练时候,有时候会出现正负样本极其不平衡的状况,什么状况下会出现这种状况?有何有效的方法避免此类问题? 答: 场景:在通常人群中生病vs没病;在通常工做状态下故障vs无端障;在通常交易中正常vs欺诈,等。 解决方法: 一、收集更多或不一样的数据。 二、生成合成的样本。 三、数据重采样。 四、将性能指标更改成混淆矩阵、精确性和召回率。F1得分,kappa,ROC曲线等。 五、采用内建非
相关文章
相关标签/搜索