面试之-1.0数据集类别分布不平衡问题

数据分布不平衡解决方法(ML版) (加粗部分,有知识扩充) 1.数据角度: 扩大数据集:最主要是添加小类别数据 采样: 上采样(增加小样本数)和下采样(减少大样本数)–> 上采样由于样本会重复出现,容易出现过拟合;下采样由于都是一部分数据导致模型只学习到一部分特征 —> 针对上采样问题:上采样,在每次新生成的数据点时加入随机扰动;下采样:①(Easy Ensemble)多次下采样(有放回),产生多
相关文章
相关标签/搜索