成功爬取到咱们所须要的数据之后,接下来应该作的是对资料进行清理和转换, 不少人遇到这种状况最天然地反应就是“写个脚本”,固然这也算是一个很好的解决方法,可是,python中还有一些第三方库,像Numpy,Pandas等,不只能够快速简单地清理数据,还可让非编程的人员轻松地看见和使用你的数据。接下来就让咱们一块儿学习使用Pandas!python
什么是Pandas? 百度百科:
Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而建立的。Pandas 归入了大量库和一些标准的数据模型,提供了高效地操做大型数据集所需的工具。pandas提供了大量能使咱们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。编程
如下咱们主要经过一些范例进行学习。bash
#存储元素与切割
import pandas as pd
df = pd.DataFrame(info)
df.ix[1]
复制代码
# 查看特定的列
df[['name', 'age']]
复制代码
# 查看特定列的特定内容
df.ix[1:2, ['name', 'age'] ]
复制代码
df[(df['gender'] == 'M')&(df['age'] >= 30)]
复制代码
df[(df['gender'] == 'M')|(df['age'] >= 30)]
复制代码
# 新增栏位
df['employee'] = True
# 删除栏位
del df['employee'] OR df = df.drop('employee', 1)
# 新增第六列
df.loc[6] = {'age':20, 'gender':'F', 'name':'qoo'}
OR
df.append(pd.DataFrame([{'age':20, 'gender':'F', 'name':'qoo'}]), ignore_index=True)
# 删除第六列
df = df.drop(6)
复制代码
# 新增的栏位
df['userid'] = range(101, 107)
# 设置新的索引
df. set_index('userid', inplace=True)
复制代码
# iloc能够根据位置取值
df.iloc[1]
复制代码
# 查看1,3,5 列的数据
df.iloc[[1,3,5]]
复制代码
# 使用ix取值,经过行号索引
df.ix[[101,103,105]]
# 使用loc取值,即便用标签索引行数据
df.loc[[101,103,105]]
复制代码
import pandas as pd
import numpy as np
df = pd.DataFrame([\
['frank', 'M', np.nan],\
['mary', np.nan, np.nan],\
['tom', 'M', 35],\
['ted', 'M', 33],\
['jean', np.nan, 21],\
['lisa', 'F', 20]]
)
df. columns = ['name', 'gender', 'age']
df
复制代码
# 检查非缺失值数据
df['gender'].notnull()
# 检查缺失值资料
df['gender'].isnull()
复制代码
# 检查字段是否含有缺失值
df['age'].isnull().values.any()
# 检查DataFrame 是否还有缺失值 返回True/False
df.isnull().values.any()
复制代码
# 检查某个字段缺失值的数量
df['age'].isnull().sum()
# 检查字段缺失值的数量
df.isnull().sum()
# 计算全部缺失值的数量
df.isnull().sum().sum()
复制代码
处理缺失值常规的有如下几种方法app
df.dropna()
复制代码
df.dropna(how='all')
复制代码
df.dropna(thresh=2)
复制代码
df['employee'] = np.nan
复制代码
df.dropna(axis=1, how = 'all')
复制代码
- 使用0值表示沿着每一列或行标签\索引值向下执行方法
- 使用1值表示沿着每一行或者列标签模向执行对应的方法
下图表明在DataFrame当中axis为0和1时分别表明的含义(axis参数做用方向图示): 函数
df.fillna(0)
复制代码
df['age'].mean()
是age这个字段平均值df['age'].fillna(df['age'].mean())
复制代码
df['age'].fillna(df.groupby('gender')['age'].transform('mean'), inplace = True)
复制代码
df.fillna(method='pad')
复制代码
df.fillna(method='bfill', limit=2)
复制代码
- pad/ffill:日后填值
- bfill/backfill:往前填值
注意:这里的往前日后是指的从上往下工具
df2 = pd.DataFrame([[1,870],\
[2,900],\
[np.nan,np.nan],\
[4,950],\
[5,1080],\
[6,1200]])
df2.columns = ['time', 'val']
df2.interpolate()
复制代码
上一阶段咱们已经爬取了房天下的二手房信息,这里对咱们抓取到的二手房信息进行处理post
# 把暂无资料替换成物业费
df[df['物业费'] == ‘暂无资料’, ‘物业费’] = np.nan
# 在打开文件的时候,直接把暂无资料替换成缺失值
df = pandas.read_csv('data/house_data.csv', na_values = '暂无资料', index_col = 0)
# 检视前三行数据
df.head(3)
# 检视后三行资料
df.tail(3)
复制代码
df.info()
复制代码
df.columns
复制代码
df.dtypes
复制代码
df.describe()
复制代码
df.isnull().any()
复制代码
df.isnull().sum()
复制代码
df = df.drop('参考月供', axis = 1)
复制代码
df['产权性质'].value_counts()
复制代码
,
前是条件,,
是栏位df.ix[(df['建筑面积'] > 100) & (df['总价'] > 2000), ].head(1)
复制代码
df = df[df['产权性质'] == ‘我的产权’]
复制代码
df['总价'] = df['总价'].fillna(df['建筑面积'] * (df['总价'] / df['建筑面积']).mean())
复制代码
df.to_csv('house_final.csv', index_label = False)
复制代码