pandas是本书后续内容的首选库。pandas能够知足如下需求:html
一、pandas数据结构介绍python
两个数据结构:Series和DataFrame。Series是一种相似于觉得NumPy数组的对象,它由一组数据(各类NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。能够用index和values分别规定索引和值。若是不规定索引,会自动建立 0 到 N-1 索引。web
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #Series能够设置index,有点像字典,用index索引 obj = Series([1,2,3],index=['a','b','c']) #print obj['a'] #也就是说,能够用字典直接建立Series dic = dict(key = ['a','b','c'],value = [1,2,3]) dic = Series(dic) #下面注意能够利用一个字符串更新键值 key1 = ['a','b','c','d'] #注意下面的语句能够将 Series 对象中的值提取出来,不过要知道的字典是不能这么作提取的 dic1 = Series(obj,index = key1) #print dic #print dic1 #isnull 和 notnull 是用来检测缺失数据 #print pd.isnull(dic1) #Series很重要的功能就是按照键值自动对齐功能 dic2 = Series([10,20,30,40],index = ['a','b','c','e']) #print dic1 + dic2 #name属性,能够起名字 dic1.name = 's1' dic1.index.name = 'key1' #Series 的索引能够就地修改 dic1.index = ['x','y','z','w']
DataFrame是一种表格型结构,含有一组有序的列,每一列能够是不一样的数据类型。既有行索引,又有列索引,能够被看作由Series组成的字典(使用共同的索引)。跟其余相似的数据结构(好比R中的data.frame),DataFrame面向行和列的操做基本是平衡的。其实,DataFrame中的数据是以一个或者多个二维块存放的(不是列表、字典或者其余)。数据库
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #构建DataFrame能够直接传入等长的列表或Series组成的字典 #不等长会产生错误 data = {'a':[1,2,3], 'c':[4,5,6], 'b':[7,8,9] } #注意是按照列的名字进行列排序 frame = DataFrame(data) #print frame #指定列以后就会按照指定的进行排序 frame = DataFrame(data,columns=['a','c','b']) print frame #能够有空列,index是说行名 frame1 = DataFrame(data,columns = ['a','b','c','d'],index = ['one','two','three']) print frame1 #用字典方式取列数据 print frame['a'] print frame.b #列数据的修改直接选出来从新赋值便可 #行,能够用行名或者行数来进行选取 print frame1.ix['two'] #为列赋值,若是是Series,规定了index后能够精确赋值 frame1['d'] = Series([100,200,300],index = ['two','one','three']) print frame1 #删除列用del 函数 del frame1['d'] #警告:经过列名选出来的是Series的视图,并非副本,可用Series copy方法获得副本
另外一种常见的结构是嵌套字典,即字典的字典,这样的结构会默认为外键为列,内列为行。数组
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #内层字典的键值会被合并、排序以造成最终的索引 pop = {'Nevada':{2001:2.4,2002:2.9}, 'Ohio':{2000:1.5,2001:1.7,2002:3.6}} frame3 = DataFrame(pop) #rint frame3 #Dataframe也有行和列有name属性,DataFrame有value属性 frame3.index.name = 'year' frame3.columns.name = 'state' print frame3 print frame3.values
下面列出了DataFrame构造函数可以接受的各类数据。安全
索引对象网络
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #pandas索引对象负责管理轴标签和其余元数据,构建Series和DataFrame时,所用到的任何数组或其余序列的标签都被转换为Index obj = Series(range(3),index = ['a','b','c']) index = obj.index #print index #索引对象是没法修改的,这很是重要,由于这样才会使得Index对象在多个数据结构之间安全共享 index1 = pd.Index(np.arange(3)) obj2 = Series([1.5,-2.5,0],index = index1) print obj2.index is index1 #除了长得像数组,Index的功能也相似一个固定大小的集合 print 'Ohio' in frame3.columns print 2003 in frame3.index
pandas中的Index是一个类,pandas中主要的Index对象(何时用到)。数据结构
下面是Index的方法与属性,值得注意的是:index并非数组。app
二、基本功能dom
下面介绍基本的Series 和 DataFrame 数据处理手段。首先是索引:
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame #Series有一个reindex函数,能够将索引重排,以至元素顺序发生变化 obj = Series([1,2,3,4],index=['a','b','c','d']) #注意这里的reindex并不改变obj的值,获得的是一个“副本” #fill_value 显然是填充空的index的值 #print obj.reindex(['a','c','d','b','e'],fill_value = 0) #print obj obj2 = Series(['red','blue'],index=[0,4]) #method = ffill,意味着前向值填充 obj3 = obj2.reindex(range(6),method='ffill') #print obj3 #DataFrame 的reindex能够修改行、列或者两个都改 frame = DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'],columns = ['Ohio','Texas','California']) #只是传入一列数,是对行进行reindex,由于...frame的行参数叫index...(我这么猜的) frame2 = frame.reindex(['a','b','c','d']) #print frame2 #当传入原来没有的index是,固然返回的是空NaN #frame3 = frame.reindex(['e']) #print frame3 states = ['Texas','Utah','California'] #这是对行、列重排 #注意:这里的method是对index 也就是行进行的填充,列是不能填充的(无论method的位置如何) frame4 = frame.reindex(index = ['a','b','c','d'],columns=states,method = 'ffill') #print frame4 #使用ix的标签索引功能,从新索引变得比较简洁 print frame.ix[['a','d','c','b'],states]
关于ix,是DataFrame的一个方法,http://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.DataFrame.ix.html。
丢弃指定轴上的项
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame #drop函数能够丢弃轴上的列、行值 obj = Series(np.arange(3.),index = ['a','b','c']) #原Series并不丢弃 obj.drop('b') #print obj #注意下面,行能够随意丢弃,列须要加axis = 1 print frame.drop(['a']) print frame.drop(['Ohio'],axis = 1)
下面说索引、选取和过滤
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame obj = Series([1,2,3,4],index=['a','b','c','d']) frame = DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'],columns = ['Ohio','Texas','California']) #Series切片和索引 #print obj[obj < 2] #注意:利用标签的切片与python的切片不一样,两端都是包含的(有道理) print obj['b':'c'] #对于DataFrame,列能够直接用名称 print frame['Ohio'] #特殊状况:经过切片和bool型索引,获得的是行(有道理) print frame[:2] print frame[frame['Ohio'] != 0] #下面的方式是对frame全部元素都适用,不是行或者列,下面的获得的是numpy.ndarray类型的数据 print frame[frame < 5],type(frame[frame < 5]) frame[frame < 5] = 0 print frame #对于DataFrame上的标签索引,用ix进行 print frame.ix[['a','d'],['Ohio','Texas']] print frame.ix[2] #注意这里默认取行 #注意下面默认取行 print frame.ix[frame.Ohio > 0] #注意下面的逗号后面是列标 print frame.ix[frame.Ohio > 0,:2]
下面是经常使用的索引选项:
算术运算和数据对齐
#pandas 有一个重要的功能就是可以根据索引自动对齐,其中索引不重合的部分值为NaN s1 = Series([1,2,3],['a','b','c']) s2 = Series([4,5,6],['b','c','d']) #print s1 + s2 df1 = DataFrame(np.arange(12.).reshape(3,4),columns=list('abcd')) df2 = DataFrame(np.arange(20.).reshape(4,5),columns=list('abcde')) #print df1 + df2 #使用add方法,并传入填充值,注意下面的fill_value函数是先对应填充再进行加和,而不是加和获得NaN以后再填充 #print df1.add(df2,fill_value = 1000) #df1.reindex(columns = df2.columns,fill_value=0)
除了add以外,还有其余的方法:
DataFrame和Series之间的运算
#下面看一下DataFrame和Series之间的计算过程 arr = DataFrame(np.arange(12.).reshape((3,4)),columns = list('abcd')) #下面的结果标明,就是按行分别相减便可,叫作 broadcasting #注意:默认状况下,DataFrame和Series的计算会将Series的索引匹配到DataFrame的列,而后进行计算,再沿着行一直向下广播 #注意:下面的式子中,若是写arr - arr[0]是错的,由于只有标签索引函数ix后面加数字才表示行 print arr - arr.ix[0] Series2 = Series(range(3),index = list('cdf')) #按照规则,在不匹配的列会造成NaN值 print arr + Series2 #若是想匹配行且在列上广播,须要用到算术运算方法 Series3 = arr['d'] #axis就是但愿匹配的轴 print arr.sub(Series3,axis = 0)
下面是函数应用和映射
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame #NumPy的元素级数组方法也适用于pandas对象 frame = DataFrame(np.random.randn(4,3),columns = list('abc'),index = ['Ut','Oh','Te','Or']) print frame #下面是求绝对值: #print np.abs(frame) #另外一种常见的作法是:将一个函数应用到行或者列上,用apply方法,与R语言相似 fun = lambda x:x.max() - x.min() #默认是应用在每一列上 print frame.apply(fun) #下面是应用在列上 print frame.apply(fun,axis = 1) #不少统计函数根本不用apply,直接调用方法就能够了 print frame.sum() #除了标量值以外,apply函数后面还能够接返回多个值组成的的Series的函数,有没有很漂亮? def f(x): return Series([x.min(),x.max()],index = ['min','max']) #print frame.apply(f) #元素级的python函数也是能够用的,可是要使用applymap函数 format = lambda x: '%.2f' % x print frame.applymap(format) #之因此要用applymap是由于Series有一个应用于元素级函数的map方法?? #这里的map颇有用 print frame['b'].map(format)
排序与排名
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame #用sort_index函数对行、列的索引进行排序 obj = Series(range(4),index = ['d','a','b','c']) print obj.sort_index() frame = DataFrame(np.arange(8).reshape((2,4)),index = ['three','one'],columns = ['d','a','b','c']) #默认是对行 “索引” 进行排序,若是对列 “索引” 进行排序,axis = 1 便可 print frame.sort_index() print frame.sort_index(axis = 1) print frame.sort_index(axis = 1,ascending = False) #若是对值进行排序,用的是order函数,注意全部的缺失值会放到最后(若是有的话) print obj.order() #numpy中的sort也能够用来排序 print np.sort(obj) #若是相对DataFrame的值进行排序,函数仍是sort_index,只不事后面须要加一个参数by frame = DataFrame({'b':[4,7,-3,2],'a':[0,1,0,1]}) print frame.sort_index(by = ['a','b']) #rank函数返回从小到大排序的下标,对于平级的数,rank是经过“为各组分配一个平均排名”的方式破坏评级关系 #下标从1开始 obj = Series([7,-5,7,4,2,0,4]) print obj.rank() #而numpy中的argsort函数比较奇怪,返回的是把数据进行排序以后,按照值得顺序对应的下标,下标从0开始 print np.argsort(obj) #打印结果为:1,5,4,3,6,0,2 按照这个下标顺序刚好能够获得从小打到的值,见下面 print obj[np.argsort(obj)] #rank函数中有一个method选项,用来规定下标的方式 print obj.rank(method = 'first',ascending=False) print obj.rank(method = 'max',ascending=False) print obj.rank(method = 'min',ascending=False) #对于DataFrame,rank函数默认把每一列排好并返回坐标 print frame.rank() print frame.rank(axis = 1)
带有重复值的轴索引
#-*- encoding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame #虽然pandas的不少函数(如reindex)要求标签惟一,可是并不具备强制性 obj = Series(range(5),index = list('aabbc')) print obj #索引是否惟一用is_unique看是否惟一 print obj.index.is_unique #对于重复值的索引,选取的话返回一个Series,惟一的索引返回一个标量 print obj['a'] #对于DataFrame也是如此 df = DataFrame(np.random.randn(4,3),index = list('aabb')) print df print df.ix['b'] #####本身导入数据的时候数据处理以前能够作一下index惟一性等,本身建立DataFrame注意不能这样
三、汇总和计算描述统计
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import time #pandas 对象拥有一组经常使用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者 从DataFrame中提取一列或者一行Series #注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。 df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = list('abcd'),columns=['one','two']) print df.sum() print df.sum(axis = 1) #下面是一些函数,idxmin 和 idmax 返回的是达到最小或者最大的索引 print df.idxmin() print df.idxmin(axis=1) #关于累积型的函数 print df.cumsum() #describe函数,与R语言中的describe函数基本相同 print df.describe() #对于非数值型的数据,看看下面的结果 obj = Series(['c','a','a','b','d'] * 4) print obj.describe() ''' 结果为: count 20 unique 4 top a freq 8 其中,freq是指字母出现的最高频率 '''
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import time #下面看一下cummin函数 #注意:这里的cummin函数是截止到目前为止的最小值,而不是加和之后的最小值 frame = DataFrame([[1,2,3,4],[5,6,7,8],[-10,11,12,-13]],index = list('abc'),columns = ['one','two','three','four']) print frame.cummin() print frame
>>>
one two three four
a 1 2 3 4
b 1 2 3 4
c -10 2 3 -13
one two three four
a 1 2 3 4
b 5 6 7 8
c -10 11 12 -13
相关系数与协方差
有些汇总统计(如相关系数和协方差)是经过参数对计算出来的。这一节数据得不到?上不去网。
惟一值、值计数以及成员资格
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt obj = Series(['a','a','b','f','e']) uniques = obj.unique() uniques.sort() #记住这是就地排序 #print uniques #下面进行计数统计,注意获得的是按照出现的频率降序排列 #print obj.value_counts() #value_counts仍是一个顶级的pandas方法。可用于任何是数组或者序列 #print obj.values #print pd.value_counts(obj.values,sort = False) #最后是isin 判断矢量化集合的成员资格,可用于选取Series中或DataF列中的子集 mask = obj.isin(['b','c']) print mask print obj[mask] data = DataFrame({'Qu1':[1,3,4,3,4], 'Qu2':[2,3,1,2,3], 'Qu3':[1,5,2,4,4]}) print data print data.apply(pd.value_counts).fillna(0)
上面这几个函数是真的很是实用!
四、处理缺失数据
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import time from numpy import nan as NA #pandas原本就被设计成自动忽略了缺失值、 #nan None 都看作缺失值 str_data = Series(['a',np.nan,'b','c']) str_data[0] = None print str_data.isnull() print str_data.notnull()
>>>
0 True
1 True
2 False
3 False
0 False
1 False
2 True
3 True
#NumPy的数据类型中缺乏真正的NA数据类型或位模式??
滤除缺失数据
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import time from numpy import nan as NA data = Series([1,NA,3.5,7,NA]) #注意返回的是不为NA的值的原来的索引,不是移除以后的索引
#有一个函数 reset_index 这个函数(方法?)能够从新设置index,其中drop = True选项会丢弃原来的索引而设置新的从0开始的索引,这个方法只对DataFrame有用貌似。
print data.dropna() #下面的结果同样 print data[data.notnull()] data1 = DataFrame([[1,2,3],[NA,2.3,4],[NA,NA,NA]]) #注意:因为DataFrame的设定,只要有NA的行就会舍弃 print data1.dropna() #传入how = 'all' 则丢掉全为NA的行,这里的 how 的起名真的有点为所欲为了,哈哈 print data1.dropna(how = 'all') #丢弃列 print data1.dropna(how = 'all',axis = 1) #还有一个参数,thresh data2 = DataFrame(np.random.randn(7,3)) data2.ix[:4,1] = NA data2.ix[:2,2] = NA #print data2 #这里的thresh函数是选取最少non-NA值个数的行选出来 print data2.dropna(thresh = 2) print data2.dropna(thresh = 4,axis = 1)
填充缺失数据
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import time from numpy import nan as NA #主要用fillna方法填充NA处的值 data2 = DataFrame(np.random.randn(7,3)) data2.ix[:4,1] = NA data2.ix[:2,2] = NA #fillna返回一个新对象,inplace = True 能够就地填充 print data2.fillna(0) #print data2.fillna(0,inplace = True) #print data2 #为不一样的列填充要用到字典 print data2.fillna({1:0.5,3:-1}) #对reindex有效的的那些差值方法也可适用于fillna,请向上看,或者搜索 reindex 便可 df = DataFrame(np.random.randn(6,3)) df.ix[2:,1] = NA df.ix[4:,2] = NA print df.fillna(method = 'ffill',limit = 2) #只要稍微动动脑子,咱们就能够知道向NA处能够填充均值等其余数 data = Series([1.2,NA,4,NA]) print data.fillna(data.mean())
fillna的参数以下:
五、层次化索引
层次化索引(hierarchical index)是pandas的重要功能,这能使在一个轴上拥有两个以上的索引级别。抽象点说,它能使你以低维度形式处理高维度。
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import time data = Series(np.random.randn(10),index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,2,3]]) #print data #下面是索引的选取方式 print data.index print data['b'] print data['b':'c'] print data.ix[['b','d']] #下面是“内层”的选取方式 print data[:,2] #层次化索引在数据重塑和基于分组操做(如透视表生成)中扮演者重要的角色,好比用unstack方式重排DataFrame: print data.unstack() #stack是unstack的逆运算 print data.unstack().stack() #对于DataFrame,每一个轴均可以有分层索引 frame = DataFrame(np.arange(12).reshape((4,3)),index = [['a','a','b','b'],[1,2,1,2]],columns = [['Ohio','Ohio','Colorado'],['Green','Red','Green']]) #print frame #注意下面的方式:是为每个轴规定名字,跟 frame.index.names = ['key1','key2'] frame.columns.names = ['state','color'] #print frame #print frame['Ohio'] #能够单首创建MultiIndex而后复用 #下面的multiindex能够这样建立,注意下面的生成方式 columns = pd.MultiIndex.from_arrays([['Ohio','Ohio','Colorado'],['Green','Red','Green']],names = ['state','color']) frame1 = DataFrame(np.arange(12).reshape((4,3)),columns = columns) print frame1 #重排顺序,调整索引级别 print frame.swaplevel('key1','key2') #sortlevel则根据但各级别中的值对数据进行排序,一般用swaplevel是也会用到sortlevel(很合理) #注意获得的是副本,不是就地修改 print frame.sortlevel(1) print frame.swaplevel(0,1).sortlevel(0) print frame #许多对DataFrame和Series进行描述汇总的统计都有一个level选项,用于指定汇总方式 print frame.sum(level = 'key2') #不指定level的话,会按照列汇总出全部列名的和 print frame.sum() print frame.sum(level = 'color',axis = 1)
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import time #人们常常想将DataFrame的一个或者多个列看成行索引来用,或者可能须要将行索引变成DataFrame的列 frame = DataFrame({'a':range(7),'b':range(7,0,-1),'c':['one','one','one','two','two','two','two'],'d':[0,1,2,0,1,2,3]}) print frame #DataFrame中的set_index函数会将其一个或者多个列转换为行索引 frame2 = frame.set_index(['c','d']) print frame2 #其实就是利用第三、4列进行一次分类汇总 frame3 = frame.set_index(['c','d'],drop = False) #与set_index相反的是reset_index函数 print frame2.reset_index() #下面进行一次测试 frame4 = DataFrame([[0,7],[1,6],[2,5],[3,4],[4,3],[5,2],[6,1]],index = [['one','one','one','two','two','two','two'],[0,1,2,0,1,2,3]],columns=['a','b']) frame4.index.names = ['c','d'] print frame4 print frame4.reset_index().sort_index(axis = 1)
其余有关pandas的话题
#-*- encoding:utf-8 -*- import numpy as np import os import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import pandas.io.data as web #这里说的是一些蛋疼的问题:整数索引和整数标签 ser = Series(np.arange(3.)) #print ser[-1] #报错,由于整数索引的歧义性 ser2 = Series(np.arange(3.),index = ['a','b','c']) print ser2[-1] #正确 #ix函数老是面向标签的 print ser.ix[:1] #若是须要可靠的、不考虑索引类型的、基于位置的索引,可使用Series的iget_value方法,Dataframe的irow 和 icol方法 ser3 = Series(range(3),index= [-5,1,3]) print ser3.iget_value(2) frame = DataFrame(np.arange(6).reshape(3,2),index = [2,0,1]) print frame.irow(0) #pandas 有一个Panel数据结构(不是主要内容),能够看做是三维的DataFrame。pandas中的多维数据能够利用多层索引进行处理 #能够利用DataFrame对象组成的字典或者一个三维ndarray来建立Panel对象 pdata = pd.Panel(dict((stk,web.get_data_yahoo(stk,'1/1/2009','6/1/2012')) for stk in ['AAPL','GOOG','MSFT','DELL'])) #网络错误,得不到数据 #Panel的每一项都是一个DataFrame.