机器学习系列--数据预处理

时间 2021-01-09

标签预处理大数据繁體版

原文原文链接

预处理现实世界数据源极易受噪声、缺失值和不一致数据的侵扰。低质量的数据将导致低质量的挖掘结果。属性是一个数据字段，表示数据对象的一个特征。标称属性：一些符号或者事物的名称，比如：职业，学历二元属性：一种标称属性，只有两个类别或者状态：0或1，其中0表示不出现，1表示出现。对称，比如：男女，没有偏好。非对称，比如：疾病，阴性和阳性，结果不是同样重要。序数属性：其可能的值之间具

>>阅读原文<<