破周三，前不着村后不着店的，只好学pandas了，你该这么学，No.9

时间 2019-11-07

标签周三不着只好 pandas no.9 繁體版

原文原文链接

周三了，一个星期最难的一天

大中间的，今天还这么热bash

5月份，36度的高温函数

天空飘过几个字spa

屋里学pandas最得劲 3d

Groupy DataFrame with Index Levels and Columns

说白了就是经过index和columns混合分组code

例子走起，（不赶忙写例子，都不知道要怎么解释啦）cdn

import pandas as pd

arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]

index = pd.MultiIndex.from_arrays(arrays=arrays,names=['first','second'])

df = pd.DataFrame({'A':[3,1,4,5,9,2,6,1],
                   'B':[1,1,1,1,2,2,3,3]},index=index)


print(df)

复制代码

有例子，就有例子展现，对吧blog

A  B
first second      
bar   one     3  1
      two     1  1
baz   one     4  1
      two     5  1
foo   one     9  2
      two     2  2
qux   one     6  3
      two     1  3
复制代码

接下来，大招展现的环节的索引

我要按照second的index索引和B列进行分组three

代码先行一步，效果稍后就来图片

grouped = df.groupby([pd.Grouper(level=1),'B']).sum()
print(grouped)
复制代码

注意看到groupby里面有两个值，一个是pd.Grouper(level=1) 这个为second的index 第二个为B columns

手太抖了，没画好，灵魂画手

主要就是为了让你看明白，分组是怎么计算的哦~

固然，你也能够经过index的名字进行分组

df.groupby([pd.Grouper(level='second'), 'A']).sum()
复制代码

和上面的效果是同样同样的

甚至，咱们能够直接简写成

df.groupby(['second', 'A']).sum()
复制代码

分组以后的数据能够选择部分，也能够迭代

这个部分，其实咱们已经实现过了

再拿出来，重温一下

df = pd.DataFrame({'A':['bar', 'bar', 'foo', 'foo', 'foo', 'foo', 'foo'],
                   'B':['one', 'two', 'one', 'two', 'one', 'two', 'three'],
                   'C':[3,1,4,5,9,2,6],
                   'D':[1,1,1,1,2,2,3]})


print(df)

grouped = df.groupby('A')

for name,group in grouped:
    print(name)
    print(group)
复制代码

看到分组的名字分别是bar和foo，熟悉吧，常规操做

迭代的时候，用for in 循环便可

bar
     A    B  C  D
0  bar  one  3  1
1  bar  two  1  1
foo
     A      B  C  D
2  foo    one  4  1
3  foo    two  5  1
4  foo    one  9  2
5  foo    two  2  2
6  foo  three  6  3
复制代码

若是按照多keys分组，例如groupby(['A','B'])

它会天然而然的造成一个元组name

能够迭代，就能够部分选择，上篇博客有哦！

bars = grouped.get_group('bar') # 经过分组的名字
print(bars)
复制代码

另外一个呢？

df.groupby(['A', 'B']).get_group(('bar', 'one'))
复制代码

唉，对喽，这么写，就比较对了

难度系数的大了，要来了，聚合函数

首先看一下内置的聚合函数

sum(), mean(), max(), min(), count(), size(), describe()
复制代码

居然才这么几个，那是由于我没写全

这个我们已经操做不少次了

接下来能够看一个高级一些的

可自定义函数，传入agg方法中
复制代码

咱们仍是经过刚才的数据进行分析

A      B  C  D
0  bar    one  3  1
1  bar    two  1  1
2  foo    one  4  1
3  foo    two  5  1
4  foo    one  9  2
5  foo    two  2  2
6  foo  three  6  3
复制代码

按照A和B进行分组 A有2个值，B有3个值，因此分组以后造成5组

看清楚，不要眨眼，操做来了

grouped = df.groupby(['A','B'])
print(grouped.agg('mean'))
复制代码

思路转换，单列求平均值

grouped = df.groupby(['A','B'])
print(grouped['C'].agg('mean'))
复制代码

继续思路转换，给单列多个聚合函数

print(grouped['C'].agg(['mean','sum']))
复制代码

很厉害，学到了吧

继续来，不要怕，求多种聚合运算的同时更改列名

print(grouped['C'].agg([('A','mean'),('B','max')]))
复制代码

不一样的列运用不一样的聚合函数

print(grouped.agg({'C':['sum','mean'],'D':['min','max']}))
复制代码

这些都是agg干的，我还能够继续编哦~

groupby中，能够修改为无索引形式注意核心加了一个参数as_index=False

grouped = df.groupby(['A','B'],as_index=False)

print(grouped.agg({'C':['sum','mean'],'D':['min','max']}))
复制代码

最后一个操做，agg里面是可使用自定义的聚合函数

通常，都是这个案例，我呢，固然不能例外啦

grouped = df.groupby('A')

def max_min(group):
    return group.max()-group.min()

print(grouped.agg(max_min))
复制代码

agg(自定义的函数)

这个地方的自定义函数，还支持lambda的哦~

迷糊了吧，迷糊也没事，拿的住手机就行

拍这里，拍这个里