内容目录python
数据准备数组
# 导入相关库 import numpy as np import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name") data = { "age": [18, 30, np.nan, 40, np.nan, 30], "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "], "sex": [None, "male", "female", "male", np.nan, "unknown"], "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"] } user_info = pd.DataFrame(data=data, index=index) # 将出生日期转为时间戳 user_info["birth"] = pd.to_datetime(user_info.birth) user_info Out[54]: age city sex birth name Tom 18.0 Bei Jing None 2000-02-10 Bob 30.0 Shang Hai male 1988-10-17 Mary NaN Guang Zhou female NaT James 40.0 Shen Zhen male 1978-08-08 Andy NaN NaN NaN NaT Alice 30.0 unknown 1988-10-17
#get方法 user_info.get('age') Out[55]: name Tom 18.0 Bob 30.0 Mary NaN James 40.0 Andy NaN Alice 30.0 Name: age, dtype: float64 user_info.get('age').get('Tom') Out[56]: 18.0
user_info.age Out[57]: name Tom 18.0 Bob 30.0 Mary NaN James 40.0 Andy NaN Alice 30.0 Name: age, dtype: float64 user_info.age.Tom Out[58]: 18.0
切片对于 Series 来讲,经过切片能够完成选择指定的行,对于 DataFrame 来讲,经过切片能够完成选择指定的行或者列,来看看怎么玩吧函数
# 筛选出第二行第一列的数据 user_info.iloc[1, 0] """筛选行""" # 获取年龄的前两行 user_info.age[:2] #获取全部信息的前两行 user_info[:2] # 全部信息每两行选择一次数据 user_info[::2] # 对全部信息进行反转 user_info[::-1] """筛选列""" user_info['age'] user_info[["city", "age"]]
经过切片操做能够完成筛选行或者列,如何同时筛选出行和列呢?
经过 iloc 便可实现, iloc 支持传入行和列的筛选器,并用 , 隔开。不管是行或者里筛选器,均可觉得如下几种状况:spa
先来看下前3种的用法。对象
# 筛选出第一行数据 user_info.iloc[0] # 筛选出第二行第一列的数据 user_info.iloc[1, 0] # 筛选出第二行、第一行、第三行对应的第一列的数据 user_info.iloc[[1, 0, 2], 0] user_info.iloc[0:2,0] # 筛选出第一行至第三行以及第一列至第二列的数据 user_info.iloc[0:3, 0:2] # 筛选出第一列至第二列的数据 user_info.iloc[:, 0:2]
虽然经过 iloc 能够实现同时筛选出行和列,可是它接收的是输入,很是不直观, 经过 loc 可实现传入名称来筛选数据,loc 支持传入行和列的筛选器,并用 , 隔开。不管是行或者里筛选器,均可觉得如下blog
几种状况:索引
先来看下前3种的用法。ci
# 筛选出名称为 Tom 的数据一行数据 user_info.loc["Tom"] # 筛选出名称为 Tom 的年龄 user_info.loc["Tom", "age"] # 筛选出名称在 ["Bob", "Tom"] 中的两行数据 user_info.loc[["Bob", "Tom"]] # 筛选出索引名称在 Tom 到 Mary 之间的数据 user_info.loc["Tom": "Mary"] # 筛选出年龄这一列数据 user_info.loc[:, ["age"]] # 筛选出全部 age 到 birth 之间的这几列数据 user_info.loc[:, "age": "birth"] #注:经过名称来筛选时,传入的切片是左右都包含的。
经过布尔操做咱们同样能够进行筛选操做,布尔操做时,& 对应 and,| 对应 or,~ 对应 not。当有多个布尔表达式时,须要经过小括号来进行分组。get
user_info[user_info.age > 20] # 筛选出年龄在20岁以上,而且性别为男性的数据 user_info[(user_info.age > 20) & (user_info.sex == "male")] # 筛选出性别不为 unknown 的数据 user_info[~(user_info.sex == "unknown")] user_info.loc[user_info.age > 20, ["age"]]
Series 包含了 isin 方法,它可以返回一个布尔向量,用于筛选数据。pandas
# 筛选出性别属于 male 和 female的数据 user_info[user_info.sex.isin(["male", "female"])] #对于索引来讲,同样可使用 isin 方法来筛选。 user_info[user_info.index.isin(["Bob"])]
loc、iloc、切片操做都支持接收一个 callable 函数,callable必须是带有一个参数(调用Series,DataFrame)的函数,而且返回用于索引的有效输出。
user_info[lambda df: df["age"] > 20] user_info.loc[lambda df: df.age > 20, lambda df: ["age"]] user_info.iloc[lambda df: [0,5], lambda df: [0]] user_info.iloc[0:5, lambda df: [0]]