Pandas的数据初步探索(学习笔记)

Pandas数据结构python

    

    与R语言同样,python也经常使用于数据分析。除了经常使用的科学计算库Numpy和绘图库matplotlib以外,pandas也给python提供了强大助力。数组

    首先要认识pandas的两种强大的数据结构Series和DataFrame。其中Series就是序列,相似一维数组,索引在左边,值在右边;而DataFrame则是相似于二维数组。数据结构

    

    建立的Series进行numpy计算,都会保留值与索引之间的连接。能够知道Series的数据结构跟python的字典很是相似,能够用字典来直接建立Series:obj=pd.Series(dict)。DataFrame也有索引功能,能够用read_excel()函数打开表格,进行常见的数据统计。函数

 

数据质量分析spa

 

    在拿到数据以后,咱们一般先须要先进行数据质量分析。数据质量分析就是检查原始数据中,是否存在不符合要求以及不能进行分析的数据。脏数据包括:excel

    一、缺失值blog

      a、删除缺失记录索引

      b、对缺失值插补数据分析

      c、不处理pandas

    二、异常值

      a、简单统计量分析,如最大最小值描述

      b、若是服从正态分布,利用3δ原则。异常值被定义为一组测定值中与平均值的误差超过三倍标准差的值

      c、箱型图分析(对数据没有任何要求)

    三、不一致的值

    四、重复数据以及含有特殊符号

 

     

 

    箱型图在数据异常检测方面有着很是好的稳定性。

    

 

                 

 

    上图能够分析出2二、5一、60、6607.四、9106.44为异常值。而后就能够拟定过滤规则:

    日销量在400如下5000以上为异常数据。编写程序过滤便可。

相关文章
相关标签/搜索