不均衡数据处理方法学习笔记

实际生产数据中会出现大量不均衡数据,若是直接对原始数据进行模型训练会使结果失真,达不到预期 不均衡数据处理方法主要有三种:算法 一.欠采样:经常使用的是随机采样 缺陷:将多数类样本删除有可能会致使分类器丢失有关多数类的重要信息学习 二.过采样:1.简单复制少数类样本,2.扩大数据集 缺陷:可能会致使分类器学习出现过拟合现象大数据 三.SMOTE过采样:利用特征空间中现存少数类样本之间的类似性来创建
相关文章
相关标签/搜索