Python学习7 ----Pandas数据预处理实例

Pandas数据预处理实例

代码详见https://github.com/RenDong3/Python_Note

1实例背景

该实例使用数据为kaggle经典入门竞赛,泰坦尼克
比赛解析 https://github.com/apachecn/Interview/tree/master/docs/Kaggle/competitions/getting-started/titanicgit

2 Pandas数据预处理

2.1 读取数据

对于csv数据每一列表明的含义以及详细分析见比赛解析给的网址(在上面哦!!)
在这里插入图片描述github

2.2 缺失值统计

观察发现,'Age’列含有大量缺失值,Nan即表明缺失值
在这里插入图片描述
在这里插入图片描述web

2.3 平均值计算

若是不对缺失值作预处理,获得结果为nan
在这里插入图片描述
只对有效数据进行计算获得平均值
在这里插入图片描述
使用dropna()丢弃缺失值
在这里插入图片描述apache

3 列属性之间关联

通常使用pivot_table()获得index和values之间的关联
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述app

4排序操做

对Age进行排序操做,但index不变化
在这里插入图片描述
在这里插入图片描述
对Age进行排序操做,同时index也按照顺序排序
在这里插入图片描述
在这里插入图片描述svg

5 自定义函数

使用apply()调用自定义函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述函数