pandas中的绘图函数

时间 2019-11-09

标签 pandas 绘图函数繁體版

原文原文链接

#pandas中的绘图函数 pandas( http://http://pandas.pydata.org )是一个在python中的内存数据库操做支持库，在科研、金融等领域普遍使用。 pandas分为Series(序列)和DataFrame(数据表)两种数据结构，支持多种操做符，对于时间序列分析尤为方便。pandas的Series和DataFrame都支持plot方法，能够直接绘图统计图形。下面列出plot方法的主要参数。html

1.线性图

Series

s=Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))
s.plot()

Series.plot方法的参数

--label 用于图例上的标签。
    --ax 要在其上进行绘制的matplotlib subplot对象。若是没有设置，则使用当前matplotlib subplot
    --style 将要传给matplotlib的风格字符串(如'ko--')    
    --alpha 图表的填充不透明度(0-1之间)
    --kind 能够是'line','bar','barh','kde'
    --logy 在Y轴上使用对数标尺
    --user_index 将对象的索引用做刻度标签
    --rot 旋转刻度标签(0到360)
    --xticks 用做X轴刻度的值
    --yticks 用做Y轴刻度的值
    --xlim X轴的界限(例如[0,10])
    --ylim Y轴的界限
    --grid 显示轴网格线(默认打开)

DataFrame

df=DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D'],index=np.arange(0,100,10))
df.plot()

专用于DataFrame的plot的参数

--subplots 将各个DataFrame列绘制到单独的subplot中
    --sharex 若是subplots=True,则共用同一个X轴,包括刻度和界限
    --sharey 若是subplots=True,则共用同一个Y轴
    --figsize 表示图像大小的元组
    --title 表示图像标题的字符串
    --legend 添加一个subplot图例(默认为True)
    --sort_columns以字母表顺序绘制各列,默认使用当前列顺序

2.柱状图

Series

fig,axes=plt.subplots(2,1)
data=Series(np.random.randn(16),index=list('abcdefghijklmnop'))
data=data[data>0]
data.plot(kind='bar',ax=axes[0],color='k',alpha=0.7)
data.plot(kind='barh',ax=axes[1],color='k',alpha=0.7)

DataFrame

df=DataFrame(np.random.rand(6,4),
index=['one','two','three','four','five','six'],
columns=pd.Index(['A','B','C','D'],name='Genus'))
df
df.plot(kind='bar')

df.plot(kind='barh',stacked=True,alpha=0.5)

利用value_counts图形化显示Series中各值的出现频率,好比s.value_count().plot(kind='bar')

tips=pd.read_csv('ch08/tips1.csv')
party_counts=pd.crosstab(tips.day,tips.size_new)
party_counts
party_counts=party_counts.ix[:,2:5]

*规格化, 和为1python

party_pcts=party_counts.div(party_counts.sum(1).astype(float),axis=0)
party_pcts
party_pcts.plot(kind='bar',stacked=True)

3.直方图和密度图

tips['tip_pct']=tips['tip']/tips['total_bill']
tips['tip_pct'].hist(bins=50)
tips['tip_pct'].plot(kind='kde')

须要安装scipy(http://sourceforge.net/projects/scipy/files/scipy/0.15.1/ || http://blog.sina.com.cn/s/blog_62c832270101eo60.html)

comp1=np.random.normal(0,1,size=200)
comp2=np.random.normal(10,2,size=200)
values=Series(np.concatenate([comp1,comp2]))
values.hist(bins=100,alpha=0.3,color='k',normed=True)
values.plot(kind='kde',style='k--')

4.散布图

macro=pd.read_csv(r'ch08\macrodata.csv')
data=macro[['cpi','m1','tbilrate','unemp']]
trans_data=np.log(data).diff().dropna()
trans_data[-5:]
plt.scatter(trans_data['m1'],trans_data['unemp'])
plt.title('Changes in log %s vs. log %s'%('m1','unemp'))

pd.scatter_matrix(trans_data,diagonal='kde',color='k',alpha=0.3)