Pandas介绍、安装及使用

目录

1、Pandas介绍。

2、Pandas数据类型(结构)。

3、Pandas做数据分析的优点。

4、Pandas的安装及引用


1、Pandas介绍。

Pandas库基于Numpy库,提供了很多用于数据操作与分析的功能。    
Numpy的特长并不是在于数据处理,而是在它能非常方便地实现科学计算    
科学计算方面Numpy是优势,但在数据处理方面DataFrame就更胜一筹

Pandas是基于Numpy构建的库,在数据处理方面可以把它理解为Numpy加强版,同时Pandas也是一项开源项目。 

官网:https://pandas.pydata.org/

2、Pandas数据类型(结构)。

Pandas 的数据结构:Pandas 主要有 Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelnD(n维数组)等数据结构。其中 Series 和 DataFrame 应用的最为广泛。

pandas提供两个常用的数据类型:
(1) Series:Series是一维带标签的数组,它可以包含任何数据类型。包括整数,字符串,浮点数,Python 对象等。Series 可以通过标签来定位。

Series是一种类似一维数组的数据结构,由一组数据和与之相关的index组成。我们知道字典是一种无序的数据结构,而pandas中的Series的数据结构不一样,它相当于定长有序的字典,并且它的index和value之间是独立的,两者的索引还是有区别的,Series的index是可变的,而dict字典的key值是不可变的

(2) DataFrame:DataFrame是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。

DataFrame的横行称为columns,竖列和Series一样称为index,DataFrame每一列可以是不同类型的值集合,所以DataFrame你也可以把它视为不同数据类型同一index的Series集合。

3、Pandas做数据分析的优点。

读取:Pandas提供强大的IO读取工具,csv格式、Excel文件、数据库等都可以非常简便地读取,pandas也支持(大数据)大文件的分块读取;

清洗:数据清洗,面对数据集,我们遇到最多的情况就是存在缺失值,Pandas把各种类型数据类型的缺失值统一称为NaN(注意,None==None这个结果是true,但np.nan==np.nan这个结果是false,NaN在官方文档中定义的是float类型,Pandas提供许多方便快捷的方法来处理这些缺失值NaN。

分析建模:Pandas自动且明确的数据对齐特性,非常方便地使新的对象可以正确地与一组标签对齐,有了这个特性,Pandas就可以非常方便地将数据集进行拆分-重组操作。

结果展现:Pandas与Matplotlib搭配,不用复杂的代码,就可以生成多种多样的数据视图。

4、Pandas的安装及引用。

#python安装:
pip install pandas
anaconda安装:
conda install pandas
#引入pandas:
import pandas as pd

#忽略警告信息:
import warnings
warnings.filterwarnings("ignore")

#pandas、numpy导入:

import pandas as pd
import numpy as np

#输出版本:

print(np.__version__)
print(pd.__version__)

#建议学习时使用的代码书写及运行工具

Jupyter:学习时最方便使用的工具

PyCharm:实际开发环境中最常使用的工具

#测试案例(Jupyter):

a = np.array([1,2,3,4])
display(a)

s = pd.Series([1, 2, 3, 4]) display(s)