04 数据清洗和转换

大部分机器学习模型处理的都是特征,是实际工作中最耗时的一部分。大部分情况下,收集到的数据需要经过预处理后才能被后续的机器学习算法所使用。 一、数据预处理包括以下几个步骤 1、数据过滤 比如用户ID是一个唯一值,当出现两个相同的用户ID就需要过滤掉一个。 2、处理数据缺失 如果有500个样本,其中第230个样本的某个数据缺失,我们可以考虑使用总体样本的平均值、中位数(Mediam,所有数据值从大到小
相关文章
相关标签/搜索