数据清洗和特征选择

数据清洗和特征选择 数据清洗 清洗过程 1、数据预处理: 选择数据处理工具: 数据库、Python相应的包; 查看数据的元数据及数据特征; 2、清理异常样本数据: 处理格式或者内容错误的数据; 处理逻辑错误数据:数据去重,去除/替换不合理的值,去除/重构不可靠的字段值; 处理不需要的数据:在进行该过程时,要注意备份原始数据; 处理关联性验证错误的数据:常应用于多数据源合并的过程中。 3、采样: 数
相关文章
相关标签/搜索