想浏览数据?一行Python代码就能轻松搞定

全文共1382字,预计学习时长3分钟git

30秒内就能分析全部标准数据,Pandas_Profiling数据预览神器真是太赞了。github

vanilla pandas方式(无趣)bash

若是你Python分析过数据,那你必定对pandas包不会陌生。pandas是处理大多数行和列格式化数据时首选的软件包,若是尚未pandas包,那你必定要在首选终端上经过pip安装来下载:微信

pip install pandas学习

如今,看一下经过pandas默认操做咱们能干点什么:人工智能

挺好的,但少了点东西。“method”列跑哪了?spa

还没反应过来的朋友们请看这里:code

pandas的任何一组“数据框”都会有一个.describe()法,能够返回上述总结。但要注意该法的输出:种类变量这一项不见了。上面例子中“method”列从输出中彻底省掉了!orm

若是能作得更好会是什么样子?cdn

Pandas_Profiling数据预览(妙不可言)

这只是报告的开始。

假若仅需3行Ptyhon代码就能得出下列统计结果,你会有何感觉?(实际上不算输入内容的话1行就够了):

• 基本项:类型、特殊值、缺失值

• 分位数统计,如最小值、Q一、中位数、Q三、最大值、范围、四分位差

• 描述性统计,如平均值、模型、标准误差、和、中值绝对误差、变异系数、峰度、偏度

• 最多见值

• 直方图

• 相互关系:突出显示了变量、Spearman相关系数、Pearson相关系数、Kendall矩阵之间的高度相关性

• 缺失值:矩阵、计数、热图以及缺失值树状图

特征值表直接从Pandas Profiling GitHub得来:https://github.com/pandas-profiling/pandas-profiling

经过使用Pandas_Profiling包,咱们能够实现这些操做!

想安装Pandas_Profiling包的话只需在终端借助pip便可:

pip install pandas_profiling

经验丰富的数据分析师一开始看到这种数据预览时会很不屑,以为太夸张了,不切实际。但它确实可使你在短期内对数据造成一个大体印象:

看到了吧, 1行代码足以搞定!#noclickbait

最早看到的是总览(Overview,如上图所示),其中有数据和变量的一些高级统计,也包括一些警告,好比变量间的相关度高、偏度大等。

但这并非全部内容,往下看会发现还有不少本文的相关部分。单凭一张输出结果(由1行代码获得)的图片看不出什么,因此笔者将其换成了动图:

强烈建议你们探索一下这个包的功能,毕竟虽然说仅仅是1行代码,但说不定在之后作数据分析时会发现它很是有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn- data/master/planets.csv').profile_report()复制代码

留言 点赞 关注

咱们一块儿分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”


(添加小编微信:dxsxbb,加入读者圈,一块儿讨论最新鲜的人工智能科技哦~)

相关文章
相关标签/搜索