1、pandas 是什么
pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了
数据分析。它提供了大量高级的
数据结构和
对数据处理的方法。
pandas 有两个主要的数据结构:
Series 和
DataFrame。
2、Series
Series 是一个
一维数组对象 ,相似于 NumPy 的一维 array。它除了包含一组数据还包含一组索引,因此能够把它理解为一组带索引的数组。
将 Python 数组转换成 Series 对象:
将 Python 字典转换成 Series 对象:
当没有显示指定索引的时候,Series 自动以 0 开始,步长为 1 为数据建立索引。
你也能够经过 index 参数显示指定索引:
对于 Series 对象里的单个数据来讲,和普通数组同样,根据索引获取对应的数据或从新赋值;
不过你还能够传入一个索引的数组来获取数据或未数据从新赋值:
想要单独获取 Series 对象的索引或者数组内容的时候,可使用
index 和
values 属性,例如:
对 Series 对象的运算(索引不变):
3、DataFrame
DataFrame 是一个
表格型的数据结构。它提供
有序的列和
不一样类型的列值。
例如将一个由 NumPy 数组组成的字典转换成 DataFrame 对象:
DataFrame 默认根据列名首字母顺序进行排序,想要指定列的顺序?传入一个列名的字典便可:
若是传入的列名找不到,它不会报错,而是产生一列 NA 值:
DataFrame 不只能够以字典索引的方式获取数据,还能够以属性的方法获取,例如:
修改列的值:
删除某一列: