当我们拿到一批原始的数据
读取一个数据文件之后,可以采用.info()查看文件特征信息
还有df.describe()
其中count是个数,mean均值,std标准差,min最小值,25% 50% 75%分位数
df.head()#查看表头,显示每列前n个,默认五个
df.tail()#查看倒数的几行,与head相反
df.shape()#查看行列
df.dtype()#查看数据类型
df.isnull().sum()#统计控制个数
df.fillna(df.mode().iloc[0],inplace=True)#众数填充
df.fillna(df.median())#中位数填充
df[' '][df.age.isnull()]='0'#对某一列填充
fit_transform(这是偷懒的方法。一般是先对整个数据集(训练集和测试集合并起来)fit,再分别对训练集和测试集transform)
df.[' ']=df.[' '].rank#排序
from sklearn.preprocessing import Binarizer
Binarizer(threshold= ).fit_transform(df[' '].values.reshape(-1,1))
best_estimator_.get_params()