目录
Pandas库基于Numpy库,提供了很多用于数据操作与分析的功能。
Numpy的特长并不是在于数据处理,而是在它能非常方便地实现科学计算
科学计算方面Numpy是优势,但在数据处理方面DataFrame就更胜一筹
Pandas是基于Numpy构建的库,在数据处理方面可以把它理解为Numpy加强版,同时Pandas也是一项开源项目。
Pandas 的数据结构:Pandas 主要有 Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelnD(n维数组)等数据结构。其中 Series 和 DataFrame 应用的最为广泛。
pandas提供两个常用的数据类型:
(1) Series:Series是一维带标签的数组,它可以包含任何数据类型。包括整数,字符串,浮点数,Python 对象等。Series 可以通过标签来定位。
Series是一种类似一维数组的数据结构,由一组数据和与之相关的index组成。我们知道字典是一种无序的数据结构,而pandas中的Series的数据结构不一样,它相当于定长有序的字典,并且它的index和value之间是独立的,两者的索引还是有区别的,Series的index是可变的,而dict字典的key值是不可变的
(2) DataFrame:DataFrame是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。
DataFrame的横行称为columns,竖列和Series一样称为index,DataFrame每一列可以是不同类型的值集合,所以DataFrame你也可以把它视为不同数据类型同一index的Series集合。
读取:Pandas提供强大的IO读取工具,csv格式、Excel文件、数据库等都可以非常简便地读取,pandas也支持(大数据)大文件的分块读取;
清洗:数据清洗,面对数据集,我们遇到最多的情况就是存在缺失值,Pandas把各种类型数据类型的缺失值统一称为NaN(注意,None==None这个结果是true,但np.nan==np.nan这个结果是false,NaN在官方文档中定义的是float类型,Pandas提供许多方便快捷的方法来处理这些缺失值NaN。
分析建模:Pandas自动且明确的数据对齐特性,非常方便地使新的对象可以正确地与一组标签对齐,有了这个特性,Pandas就可以非常方便地将数据集进行拆分-重组操作。
结果展现:Pandas与Matplotlib搭配,不用复杂的代码,就可以生成多种多样的数据视图。
#python安装:pip install pandas
anaconda安装:conda install pandas
#引入pandas:import pandas as pd
#忽略警告信息:
import warnings
warnings.filterwarnings("ignore")
#pandas、numpy导入:
import pandas as pd
import numpy as np
#输出版本:
print(np.__version__)
print(pd.__version__)
#建议学习时使用的代码书写及运行工具
Jupyter:学习时最方便使用的工具
PyCharm:实际开发环境中最常使用的工具
#测试案例(Jupyter):
a = np.array([1,2,3,4])
display(a)
s = pd.Series([1, 2, 3, 4]) display(s)