样本类别比例严重失衡

时间 2019-11-10

标签样本类别比例严重失衡繁體版

原文原文链接

在机器学习中咱们常常会遇到一个比较让人头疼的问题，就是样本类别比例失衡,在我第一次参加的Kaggle的比赛中，是一个而分类问题，给定的训练集样本中正负样本的比例大体达到惊人的1：1600。机器学习

经过网上搜集资料，其实针对这样的状况解决办法能够分为三种：函数

第一种:学习

　　　将正向样本进行重复混入训练样本中原理

　　　由于训练的指引来自损失函数，损失函数的影响因素分别来自 1错分为0 和0错分为1 ，当经过重复正向样本增长比例后，至关于增长了在训练时对1错判为0的权重，也就增长了损失函数的修正性。比赛

第二种:模型

　　　增长损失函数中正样错判的权重：

　　　原理与第一种作法原理相似

第三种：

　　　bagging模式：

　　　具体作法为，例如正负样本比例为1：10 ，将负样本分为9份，每一份负样本与正样本合并为一个正负比例为1：1的训练样本，对9个训练样本集进行分别的训练，获得9个模型，而后用9个模型进行分别的预测并将各自的结果综合决策出最终的训练结果。