透视表和交叉表

时间 2019-12-09

标签交叉表繁體版

原文原文链接

         
         import numpy as np 
         import pandas as pd 
         from pandas import Series,DataFrame

 
           df = DataFrame({'sex':['man','man','women','women','man','women','man','women','women'], 
                          'age':[15,23,25,17,35,57,24,31,22], 
                          'smoke':[True,False,False,True,True,False,False,True,False], 
                          'height':[168,179,181,166,173,178,188,190,160]}) 
           df

Out[3]:

	age	height	sex	smoke
0	15	168	man	True
1	23	179	man	False
2	25	181	women	False
3	17	166	women	True
4	35	173	man	True
5	57	178	women	False
6	24	188	man	False
7	31	190	women	True
8	22	160	women	False

透视表

各类电子表格程序和其余数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中html

行分组透视表设置index参数python

              
           # 默认获得一个平均值 
           df.pivot_table(index=[df.sex,df.smoke])

Out[4]:

		age	height
sex	smoke
man	False	23.500000	183.5
man	True	25.000000	170.5
women	False	34.666667	173.0
women	True	24.000000	178.0

列分组透视表设置columns参数app

 
           df.pivot_table(columns=df.smoke)

Out[5]:

smoke	False	True
age	30.2	24.50
height	177.2	174.25

行列分组的透视表同时设定index、columns参数ide

In [9]:

         
           df.pivot_table(index=df.sex,columns=df.smoke)

Out[9]:

	age		height
smoke	False	True	False	True
sex
man	23.500000	25.0	183.5	170.5
women	34.666667	24.0	173.0	178.0

aggfunc：设置应用在每一个区域的聚合函数，默认值为np.mean函数

In [10]:

         
           df.pivot_table(index=df.sex,aggfunc=np.sum)

Out[10]:

	age	height	smoke
sex
man	97	708	2.0
women	152	875	2.0

fill_value：替换结果中的缺失值工具

交叉表

是一种用于计算分组频率的特殊透视图,对数据进行汇总spa

pd.crosstab(index,colums)code

index:分组数据，交叉表的行索引
columns:交叉表的列索引

 
           pd.crosstab(index=df.sex,columns=df.smoke)

Out[6]:

smoke	False	True
sex
man	2	2
women	3	2