Python的pandas

pandas 是python中很重要的组件,网上关于pandas 的文章也不少,好比Python科学计算之Pandas 和 Python数据分析入门python

Pandas基于两种数据类型:series与dataframe。git

一个series是一个一维的数据类型,其中每个元素都有一个标签。若是你阅读过这个系列的关于Numpy的文章,你就能够发现series相似于Numpy中元素带标签的数组。其中,标签能够是数字或者字符串。github

一个dataframe是一个二维的表结构。Pandas的dataframe能够存储许多种不一样的数据类型,而且每个坐标轴都有本身的标签。你能够把它想象成一个series的字典项。数组

这里我使用的数据源以下:"https://raw.githubusercontent.com/alstat/Analysis-with-Programming/master/2014/Python/Numerical-Descriptions-of-the-Data/data.csv"网络

常常使用的效果如图:函数

 

要使用pandas首先咱们须要 安装并引入import pandas as pd,read_csv方法能够加载本地文件也能够读取网络文件,head()方法默认加载前面5条记录,也能够指定记录条数,好比head(10)就是前面10条记录,tail()取后面多少条记录, 也能够指定记录条数。columns显示的表格的列名,index这里能够理解为表格的下标,默认是从0开始的,能够用len(df)来获取记录数 ,df.T能够理解为表格的行列转换spa

 

head和tail是表格前面或者后面多少条记录, 也能够用loc方法指定第几条记录,好比我这里就强制指定第一和第三条及记录,固然也能够限制值显示指定的列,drop方法是丢弃的意思,axis 参数告诉函数到底舍弃列仍是行。若是axis等于0,那么就舍弃行,这里丢弃的是第二、3列的数据,describe属性对数据的统计特性进行描述3d

Python有一个很好的统计推断包。那就是scipy里面的stats。ttest_1samp实现了单样本t检验。所以,若是咱们想检验数据Abra列的稻谷产量均值,经过零假设,这里咱们假定整体稻谷产量均值为15000blog

第一个数组是t统计量,第二个数组则是相应的p值。返回下述值组成的元祖:排序

t : 浮点或数组类型 ,t 统计量
prob : 浮点或数组类型, two-tailed p-value 双侧几率值
经过上面的输出,看到p值是0.267远大于α等于0.05,所以没有充分的证听说平均稻谷产量不是150000。将这个检验应用到全部的变量,一样假设均值为15000

 

表格的列还能够当作属性来获取, 好比df["Abra"]和df.Abra都是有效的,而且列也支持过滤和排序,以下的df[df.Abra>5000]

 

注意到列名虽然只有一个元素,却实际上须要包含于一个列表中。若是你想要多个索引,你能够简单地在列表中增长另外一个列名.咱们能够在Pandas中经过调用sort_index来对dataframe实现排序

 

Python中有许多可视化模块,最流行的当属matpalotlib库。稍加说起,咱们也可选择bokeh和seaborn模块.

相关文章
相关标签/搜索