全文共1382字,预计学习时长3分钟git
30秒内就能分析全部标准数据,Pandas_Profiling数据预览神器真是太赞了。github
vanilla pandas方式(无趣)bash
若是你Python分析过数据,那你必定对pandas包不会陌生。pandas是处理大多数行和列格式化数据时首选的软件包,若是尚未pandas包,那你必定要在首选终端上经过pip安装来下载:微信
pip install pandas学习
如今,看一下经过pandas默认操做咱们能干点什么:人工智能
挺好的,但少了点东西。“method”列跑哪了?spa
还没反应过来的朋友们请看这里:code
pandas的任何一组“数据框”都会有一个.describe()法,能够返回上述总结。但要注意该法的输出:种类变量这一项不见了。上面例子中“method”列从输出中彻底省掉了!orm
若是能作得更好会是什么样子?cdn
Pandas_Profiling数据预览(妙不可言)
这只是报告的开始。
假若仅需3行Ptyhon代码就能得出下列统计结果,你会有何感觉?(实际上不算输入内容的话1行就够了):
• 基本项:类型、特殊值、缺失值
• 分位数统计,如最小值、Q一、中位数、Q三、最大值、范围、四分位差
• 描述性统计,如平均值、模型、标准误差、和、中值绝对误差、变异系数、峰度、偏度
• 最多见值
• 直方图
• 相互关系:突出显示了变量、Spearman相关系数、Pearson相关系数、Kendall矩阵之间的高度相关性
• 缺失值:矩阵、计数、热图以及缺失值树状图
特征值表直接从Pandas Profiling GitHub得来:https://github.com/pandas-profiling/pandas-profiling
经过使用Pandas_Profiling包,咱们能够实现这些操做!
想安装Pandas_Profiling包的话只需在终端借助pip便可:
pip install pandas_profiling
经验丰富的数据分析师一开始看到这种数据预览时会很不屑,以为太夸张了,不切实际。但它确实可使你在短期内对数据造成一个大体印象:
看到了吧, 1行代码足以搞定!#noclickbait
最早看到的是总览(Overview,如上图所示),其中有数据和变量的一些高级统计,也包括一些警告,好比变量间的相关度高、偏度大等。
但这并非全部内容,往下看会发现还有不少本文的相关部分。单凭一张输出结果(由1行代码获得)的图片看不出什么,因此笔者将其换成了动图:
强烈建议你们探索一下这个包的功能,毕竟虽然说仅仅是1行代码,但说不定在之后作数据分析时会发现它很是有用。
import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn- data/master/planets.csv').profile_report()复制代码
留言 点赞 关注
咱们一块儿分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一块儿讨论最新鲜的人工智能科技哦~)