数据清洗的一般流程(特征工程)

1.获取输出目标数据的describe()。这包括数据的count,mean,std,min,median。然后获取输出数据的skew,kurt   2.绘制主要影响因素的图像,例如房子价格的主要影响因素是面积,即绘制面积与价格的图像。通过观察图像,查看异常值,并对异常值进行处理。一般异常值即为离群点数据     3.将训练集数据与测试集数据进行联合起来进行特征处理。   4.绘相关系数矩阵热图,
相关文章
相关标签/搜索