- 若是你在使用 Pandas(Python Data Analysis Library) 的话,下面介绍的对你必定会有帮助的。
1. 加载 CSV
Read_csv 方法有不少参数,有效的利用这些参数能够减轻数据预处理的工做。谁都不肯意作数据清洗,那么咱们就在加载数据的时候作一些简单的数据处理


有时咱们可能须要加载的 csv 太大,可能会致使内存爆掉,这时候,咱们就须要分批加载数据进行分析、处理
2. 浏览 DataFrame 数据
-
df.head(n):浏览数据的前 n 行,默认 5 行
-
df.tail(n):浏览数据的末尾 n 行,默认 5 行
-
df.sample(n):随机浏览 n 行数据,默认 5 行
-
df.shape:tuple 类型的数据行列数,(行数,列数)
-
df.describe():计算评估数据的趋势
-
df.info():内存和数据类型
3. 在 DataFrame 中增长列
在 DataFrame 中添加新列的操做很简单,下面介绍几种方式
直接增长新列并赋值
df['temp_diff'] = df['atemp'] - df['temp']
咱们仅仅根据风速,简单判断一下人体温馨度,体感比较舒服的温度是 0.3 米/秒
咱们将 season 转换为具体季节的名称
4. 选择指定单元格
相似于 Excel 单元格的选择,Pandas 提供了这样的功能,操做很简单,可是我本人理解起来确实没有操做看上去那么简单。Pandas 提供了三个方法作相似的操做,loc,iloc,ix,ix 官方已经不建议使用,因此咱们下面介绍 loc 和 iloc
df.loc[行索引开始位置:行索引结束位置,[列名数组]]
df.iloc[行索引开始位置:行索引结束位置,列索开始位置:列索引结束位置]


个人博客即将搬运同步至腾讯云+社区,邀请你们一同入驻:https://cloud.tencent.com/developer/support-plan