用一行Python进行数据收集探索

 

简易的Pandas之路

任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。若是你没有Pandas,请确保在终端中使用pip install安装:python

pip install pandas

如今,让咱们看看Pandas包中的默认方法能够作些什么:git

如下内容写给不知道上面发生了什么的新手:github

任何Pandas数据帧都有一个.descripe()返回上面的输出的方法。可是,此方法中没有注意到分类变量。在上面的示例中,输出中彻底省略了“ method ”列。网络

让咱们看看能不能解决这个问题。spa


Pandas分析

若是我告诉你仅用3行Python就能够产生如下统计信息,你会怎么想?但其实,若是不计算imports的话,整体上只用1行就够。code

  • 要点:类型,惟一值,缺失值blog

  • 分位数统计信息:例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围图片

  • 描述性统计数据:例如平均值,众数,标准误差,总和,中位数绝对误差,变异系数,峰度,偏度ip

  • 经常使用值ci

  • 直方图

  • 高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示

  • 缺失值矩阵,计数,热图和缺失值树状图

(功能列表直接来自Pandas Profiling GitHub)

好吧,咱们可使用Pandas Profiling软件包!要安装Pandas Profiling软件包,只需在终端中使用pip install便可:

pip install pandas_profiling

经验丰富的数据分析人员可能会由于这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻,但这对于快速得到数据的第一手印象确定是有用的:

咱们首先看到的是概述,其中提供了关于数据和变量的一些很是高级的统计信息,以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动咱们会发现报告有多个部分,若是只是简单地用图片展现这个1行程序的输出是不足以彻底呈现这些内容的,因此我制做了一个gif:

我强烈建议你们本身去探索一下这个包的特性,毕竟,这里提到的只是一行代码,在未来 的数据分析中,这个包可能会对你很是有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

 

原文连接:https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d

 

 

以上信息来源于网络,由“京东云开发者社区”公众号编辑整理,不表明京东云立场。

点击“京东云”了解京东云数据工厂产品

相关文章
相关标签/搜索