20个Pandas函数详解

时间 2020-08-11

标签 pandas 函数详解繁體版

原文原文链接

做者|Soner Yıldırım
编译|VK
来源|Towards Data Sciencepython

Pandas是一个python数据分析库。它提供了许多函数和方法来加快数据分析过程。pandas之因此如此广泛，是由于它具备强大的功能，以及他简单的语法和灵活性。sql

在这篇文章中，我将举例来解释20个经常使用的pandas函数。有些是很常见的，我敢确定你之前用过。有些对你来讲多是新的。全部函数都将为你的数据分析过程增长价值。数组

import numpy as np
import pandas as pd

1.query

咱们有时须要根据条件过滤一个数据帧。过滤数据帧的一个简单方法是query函数。让咱们首先建立一个示例数据帧。app

values_1 = np.random.randint(10, size=10)
values_2 = np.random.randint(10, size=10)
years = np.arange(2010,2020)
groups = ['A','A','B','A','B','B','C','A','C','C']
df = pd.DataFrame({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2})
df

使用查询函数很是简单，只须要编写过滤条件。dom

df.query('value_1 < value_2')

2.insert

当咱们想向dataframe添加一个新列时，默认状况下会在末尾添加它。可是，pandas提供了使用insert函数使得咱们能够在任何位置添加新列。机器学习

咱们须要经过传递索引做为第一个参数来指定位置。此值必须是整数。列索引从零开始，就像行索引同样。第二个参数是列名，第三个参数是对象，这些对象能够是Series 或数组。ide

#新建列
new_col = np.random.randn(10)
#在位置2插入新列
df.insert(2, 'new_col', new_col)
df

3.Cumsum

数据帧包含3个不一样组的年份值。咱们可能只对某些状况下的累积值感兴趣。Pandas提供了一个易于使用的函数来计算累计和，即cumsum。函数

若是咱们只应用cumsum函数，group里的（A，B，C）将被忽略，由于咱们没法区分不一样的组。咱们能够应用groupby和cumsum函数，这样就能够区分出不一样的组。学习

df['cumsum_2'] = df[['value_2','group']].groupby('group').cumsum()
df

4.Sample

Sample方法容许你从序列或数据帧中随机选择值。当咱们想从一个分布中选择一个随机样本时，它颇有用。spa

sample1 = df.sample(n=3)
sample1

咱们用n参数指定值的数目，但咱们也能够将比率传递给frac参数。例如，0.5将返回一半的行。

sample2 = df.sample(frac=0.5)
sample2

为了得到可重复的样本，咱们可使用随机的状态参数。若是将整数值传递给random_state，则每次运行代码时都将生成相同的示例。

5. Where

“Where”用于根据条件替换行或列中的值。默认的替换值是NaN，可是咱们也能够指定替换的值。

df['new_col'].where(df['new_col'] > 0 , 0)

“where”的工做方式是选择符合条件的值，其他值替换为指定值。

where(df[‘new_col’]>0, 0)选择“new_col”中大于0的全部值，其他值替换为0。所以，这里也能够视为掩码操做。

重要的一点是，Pandas 和Numpy的“where”并不彻底相同。咱们能够用稍微不一样的语法来达到相同的效果。DataFrame.where按原数据选择符合条件的值，其余值将替换为指定的值。Np.where还须要指定一个新数据。如下两行返回相同的结果：

df['new_col'].where(df['new_col'] > 0 , 0)
np.where(df['new_col'] < 0, df['new_col'], 0)

6.Isin

在处理数据帧时，咱们常用过滤或选择方法。Isin方法是一种先进的过滤方法。例如，咱们能够根据选择列表过滤值。

years = ['2010','2014','2017']
df[df.year.isin(years)]

7.Loc and iloc

Loc和iloc用于选择行和列。

loc：按标签选择
iloc：按位置选择

loc用于按标签选择数据。列的标签是列名。行标签要分状况，若是咱们不分配任何特定的索引，pandas默认建立整数索引。iloc 按位置索引数据

使用iloc选择前3行和前2列：

使用loc选择前3行和前2列：

注：当使用loc时，切片获得的结果包括索引的边界，而使用iloc则不包括这些边界。

8.Pct_change

此函数用于计算一系列值的变化百分比。假设咱们有一个包含[2,3,6]的序列。若是咱们对这个序列应用pct_change，则返回的序列将是[NaN，0.5，1.0]。

从第一个元素到第二个元素增长了50%，从第二个元素到第三个元素增长了100%。Pct_change函数用于比较元素时间序列中的变化百分比。

df.value_1.pct_change()

9.Rank

Rank函数为值分配序。假设咱们有一个包含[1,7,5,3]的序列s。分配给这些值的序为[1,4,3,2]。能够用这些序做排序操做

df['rank_1'] = df['value_1'].rank()
df

10.Melt

Melt用于将宽数据帧转换为窄数据帧。我所说的wide是指具备大量列的数据帧。

一些数据帧的结构是连续的度量或变量用列表示。在某些状况下，将这些列表示为行可能更适合咱们的任务。考虑如下数据帧：

咱们有三个不一样的城市，在不一样的日子进行测量。咱们决定将这些日子表示为列中的行。还将有一列显示测量值。咱们能够经过使用Melt函数轻松实现：

df_wide.melt(id_vars=['city'])

默认状况下，会给出变量和值列名。咱们可使用melt函数的var_name和value_name参数来指定新的列名。

11.Explode

假设你的数据集在一个观测(行)中包含一个要素的多个条目，但你但愿在单独的行中分析它们。

咱们想在不一样的行上看到“day"1在ID为c上的测量值，用explode来完成。

df1.explode('measurement').reset_index(drop=True)

12.Nunique

Nunique统计列或行上的惟一条目数。它在分类特征中很是有用，特别是在咱们事先不知道类别数量的状况下。让咱们看看咱们的初始数据帧：

df.year.nunique()
10
df.group.nunique()
3

咱们能够直接将nunique函数应用于dataframe，并查看每列中惟一值的数量：

若是axis参数设置为1，nunique将返回每行中惟一值的数目。

13.lookup

它能够用于根据其余行-列对上的值在数据帧中查找值。假设咱们有如下数据帧：

天天，咱们有4我的的测量数据和一个列，其中包括这4我的的名字。

咱们要建立一个新列，该列显示“person”列中人员对应他们的度量。所以，对于第一行，新列中的值将是4（“Alex”列中的值)。

df['Person_point'] = df.lookup(df.index, df['Person'])
df

14.Infer_objects

Pandas支持普遍的数据类型，其中之一就是object。对象包含文本或混合(数字和非数字)值。

可是，若是有其余选项可用，则不建议使用对象数据类型。使用更具体的数据类型，某些操做执行得更快。例如，对于数值，咱们更喜欢使用整数或浮点数据类型。

infer_objects尝试为对象列推断更好的数据类型。考虑如下数据帧：

df2.dtypes
A    object 
B    object 
C    object 
D    object 
dtype: object

全部的数据类型都是object。让咱们看看推断的数据类型是什么：

df2.infer_objects().dtypes
A      int64 
B    float64 
C       bool 
D     object 
dtype: object

它可能看起来没什么用，但在有不少列时绝对有用。

15.Memory_usage

Memory_usage返回每行使用的内存量(以字节为单位)。它很是有用，尤为是当咱们处理大型数据帧时。考虑下面的数据帧，其中有一百万行。

df_large = pd.DataFrame({'A': np.random.randn(1000000),
                    'B': np.random.randint(100, size=1000000)})
df_large.shape
(1000000, 2)

以及每列的内存使用状况(以字节为单位)：

df_large.memory_usage()
Index        128 
A        8000000 
B        8000000 
dtype: int64

整个数据帧的内存使用量（MB）：

df_large.memory_usage().sum() / (1024**2) 
15.2589111328125

16.Describe

描述函数计算数字列的基本统计信息，这些列包括计数、平均值、标准差、最小值和最大值、中值、第一个和第三个四分位数。所以，它提供了数据帧的统计摘要。

17.Merge

Merge()根据共享列中的值组合数据帧。考虑如下两个数据帧。

咱们能够根据列中的共享值合并它们。设置合并条件的参数是“on”参数。

df1和df2是基于column_a中的公共值进行合并的，merge函数的how参数容许以不一样的方式组合数据帧。“内部”、“外部”、“左侧”、“右侧”的可能值。

inner：仅在on参数指定的列中具备相同值的行（how参数的默认值)
outer：全部行
left：左数据帧中的全部行
right：右数据帧中的全部行

相似于sql语句中的join

18.Select_dtypes

Select_dtypes函数根据对数据类型设置的条件返回数据帧列的子集。它容许使用include和exlude参数包含或排除某些数据类型。

df.select_dtypes(include='int64')

df.select_dtypes(exclude='int64')

19.replace

顾名思义，它容许替换数据帧中的值。

df.replace('A', 'A_1')

第一个参数是要替换的值，第二个参数是新值。

咱们也能够在一个字典中同时进行多个替换。

df.replace({'A':'A_1', 'B':'B_1'})

20.Applymap

Applymap函数用于将函数应用于dataframe元素。

请注意，若是操做的向量化版本可用，那么它应该优先于applymap。例如，若是咱们想将每一个元素乘以一个数字，咱们不须要也不该该使用applymap函数。在这种状况下，简单的向量化操做(例如df*4）要快得多。

然而，在某些状况下，咱们可能没法选择向量化操做。例如，咱们可使用pandas dataframes的Style属性来更改dataframe的样式。如下函数将负值的颜色更改成红色。

def color_negative_values(val):
   color = 'red' if val < 0 else 'black'
   return 'color: %s' % color

咱们须要使用applymap函数将此函数应用于数据帧。

df3.style.applymap(color_negative_values)

原文连接：https://towardsdatascience.co...

欢迎关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官方文档：
http://sklearn123.com/

欢迎关注磐创博客资源汇总站：
http://docs.panchuang.net/