建模—python数据预处理(代码加算法 )

如需帮忙请留下评论,看到我会回复python

数据预处理

  • 导入数据预处理中python所用到的包
    (后导入数据)
# 导入第三方包
import pandas as pd
import numpy as np

查看各行列缺失状况

  • 查看缺失值位置
  • 查看缺失值所在行
a.isnull().sum()
miss_v = income.isnull()#查看缺失值位置
l_miss = income[miss_v.any(axis=1)]#查看缺失值所在行

缺失值处理’

  • 方法1 删除
var_1 = std(a.iloc[:,1])
a_1 = a.dropna()# 删除含有缺失值的样本(行)
a1.head(3)#查看前三行
a1.shape

a2 = a.dropna(axis=1)# 删除含有缺失值的特征(列)
a2.head(3)
a2.shape

a3 = a.dropna(subset=['zhiding'])# 删除指定特征上有缺失的样本(这里'zhiding'为指定特征)
a3.head(3)
a3.shape
  • 方法2 缺失值替换
    (本问题中的三个缺失列均为离散型,能够考虑用众数替换缺失值)
a4 = a.fillna(value = {'zhiding':a.zhiding.mode()[0],
                              'op':a.occupation.mode()[0],
                              'pp':a['a-p'].mode()[0]}, 
                               inplace = False)

再次查看各列缺失状况

a4.isnull().sum()

#补充:若是用0替换
a5 = a.fillna(0) #根据数据状况使用
a5.isnull().sum()
  • 方法3 插补法
    (以线性插值为例)
a6 = pd.read_excel('a.xlsx')
a6.isnull().sum()

以上代码均和导入的数据有关,故不能直接运行,只有导入本身想要的数据以后才能使用

如转载请附上本文连接:https://blog.csdn.net/qq_44884421/article/details/107500116web