Pandas系列（八）-筛选工具介绍

时间 2019-12-06

标签 pandas 系列筛选工具介绍繁體版

原文原文链接

内容目录python

1. 字典式 get 访问
2. 属性访问
3. 切片操做
4. 经过数字筛选行和列
5. 经过名称筛选行和列
6. 布尔索引
7. isin 筛选
8. 经过Callable筛选

数据准备数组

# 导入相关库
import numpy as np
import pandas as pd

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
data = {
    "age": [18, 30, np.nan, 40, np.nan, 30],
    "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
    "sex": [None, "male", "female", "male", np.nan, "unknown"],
    "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}
user_info = pd.DataFrame(data=data, index=index)
# 将出生日期转为时间戳
user_info["birth"] = pd.to_datetime(user_info.birth)
user_info
Out[54]: 
        age        city      sex      birth
name                                       
Tom    18.0   Bei Jing      None 2000-02-10
Bob    30.0  Shang Hai      male 1988-10-17
Mary    NaN  Guang Zhou   female        NaT
James  40.0   Shen Zhen     male 1978-08-08
Andy    NaN         NaN      NaN        NaT
Alice  30.0              unknown 1988-10-17

1. 字典式 get 访问

#get方法
user_info.get('age') 
Out[55]: 
name
Tom      18.0
Bob      30.0
Mary      NaN
James    40.0
Andy      NaN
Alice    30.0
Name: age, dtype: float64
user_info.get('age').get('Tom')
Out[56]: 18.0

2. 属性访问

user_info.age
Out[57]: 
name
Tom      18.0
Bob      30.0
Mary      NaN
James    40.0
Andy      NaN
Alice    30.0
Name: age, dtype: float64
user_info.age.Tom
Out[58]: 18.0

　3.切片

　　切片对于 Series 来讲，经过切片能够完成选择指定的行，对于 DataFrame 来讲，经过切片能够完成选择指定的行或者列，来看看怎么玩吧函数

# 筛选出第二行第一列的数据
user_info.iloc[1, 0]
"""筛选行"""
# 获取年龄的前两行
user_info.age[:2]
#获取全部信息的前两行
user_info[:2]
# 全部信息每两行选择一次数据
user_info[::2]
# 对全部信息进行反转
user_info[::-1]
"""筛选列"""
user_info['age']
user_info[["city", "age"]]

　4. 经过数字筛选行和列

　　经过切片操做能够完成筛选行或者列，如何同时筛选出行和列呢？
　　经过 iloc 便可实现， iloc 支持传入行和列的筛选器，并用 , 隔开。不管是行或者里筛选器，均可觉得如下几种状况：spa

一个整数，如 2
一个整数列表，如 [2, 1, 4]
一个整数切片对象，如 2:4
一个布尔数组
一个callable

先来看下前3种的用法。对象

# 筛选出第一行数据
user_info.iloc[0]
# 筛选出第二行第一列的数据
user_info.iloc[1, 0]
# 筛选出第二行、第一行、第三行对应的第一列的数据
user_info.iloc[[1, 0, 2], 0]
user_info.iloc[0:2,0]
# 筛选出第一行至第三行以及第一列至第二列的数据
user_info.iloc[0:3, 0:2]
# 筛选出第一列至第二列的数据
user_info.iloc[:, 0:2]

　　5. 经过名称筛选行和列

　　虽然经过 iloc 能够实现同时筛选出行和列，可是它接收的是输入，很是不直观，经过 loc 可实现传入名称来筛选数据，loc 支持传入行和列的筛选器，并用 , 隔开。不管是行或者里筛选器，均可觉得如下blog

　　几种状况：索引

一个索引的名称，如："Tom"
一个索引的列表，如：["Bob", "Tom"]
一个标签范围，如："Tom": "Mary"
一个布尔数组
一个callable

先来看下前3种的用法。ci

# 筛选出名称为 Tom 的数据一行数据
user_info.loc["Tom"]
# 筛选出名称为 Tom 的年龄
user_info.loc["Tom", "age"]
# 筛选出名称在 ["Bob", "Tom"] 中的两行数据
user_info.loc[["Bob", "Tom"]]
# 筛选出索引名称在 Tom 到 Mary 之间的数据
user_info.loc["Tom": "Mary"]
# 筛选出年龄这一列数据
user_info.loc[:, ["age"]]
# 筛选出全部 age 到 birth 之间的这几列数据
user_info.loc[:, "age": "birth"]
#注：经过名称来筛选时，传入的切片是左右都包含的。

　　6. 布尔索引

　　经过布尔操做咱们同样能够进行筛选操做，布尔操做时，& 对应 and，| 对应 or，~ 对应 not。当有多个布尔表达式时，须要经过小括号来进行分组。get

user_info[user_info.age > 20]
# 筛选出年龄在20岁以上，而且性别为男性的数据
user_info[(user_info.age > 20) & (user_info.sex == "male")]
# 筛选出性别不为 unknown 的数据
user_info[~(user_info.sex == "unknown")]
user_info.loc[user_info.age > 20, ["age"]]

　　7.isin 筛选

　　Series 包含了 isin 方法，它可以返回一个布尔向量，用于筛选数据。pandas

# 筛选出性别属于 male 和 female的数据
user_info[user_info.sex.isin(["male", "female"])]
#对于索引来讲，同样可使用 isin 方法来筛选。
user_info[user_info.index.isin(["Bob"])]

　　8. 经过Callable筛选

　　loc、iloc、切片操做都支持接收一个 callable 函数，callable必须是带有一个参数（调用Series，DataFrame）的函数，而且返回用于索引的有效输出。

user_info[lambda df: df["age"] > 20]
user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]
user_info.iloc[lambda df: [0,5], lambda df: [0]]
user_info.iloc[0:5, lambda df: [0]]