想浏览数据？一行Python代码就能轻松搞定

时间 2019-11-25

标签浏览数据一行 python 代码轻松搞定栏目 Python 繁體版

原文原文链接

全文共1382字，预计学习时长3分钟git

30秒内就能分析全部标准数据，Pandas_Profiling数据预览神器真是太赞了。github

vanilla pandas方式（无趣）bash

若是你Python分析过数据，那你必定对pandas包不会陌生。pandas是处理大多数行和列格式化数据时首选的软件包，若是尚未pandas包，那你必定要在首选终端上经过pip安装来下载：微信

pip install pandas学习

如今，看一下经过pandas默认操做咱们能干点什么：人工智能

挺好的，但少了点东西。“method”列跑哪了？spa

还没反应过来的朋友们请看这里：code

pandas的任何一组“数据框”都会有一个.describe()法，能够返回上述总结。但要注意该法的输出：种类变量这一项不见了。上面例子中“method”列从输出中彻底省掉了！orm

若是能作得更好会是什么样子？cdn

Pandas_Profiling数据预览（妙不可言）

这只是报告的开始。

假若仅需3行Ptyhon代码就能得出下列统计结果，你会有何感觉？（实际上不算输入内容的话1行就够了）：

• 基本项：类型、特殊值、缺失值

• 分位数统计，如最小值、Q一、中位数、Q三、最大值、范围、四分位差

• 描述性统计，如平均值、模型、标准误差、和、中值绝对误差、变异系数、峰度、偏度

• 最多见值

• 直方图

• 相互关系：突出显示了变量、Spearman相关系数、Pearson相关系数、Kendall矩阵之间的高度相关性

• 缺失值：矩阵、计数、热图以及缺失值树状图

特征值表直接从Pandas Profiling GitHub得来：https://github.com/pandas-profiling/pandas-profiling

经过使用Pandas_Profiling包，咱们能够实现这些操做！

想安装Pandas_Profiling包的话只需在终端借助pip便可：

pip install pandas_profiling

经验丰富的数据分析师一开始看到这种数据预览时会很不屑，以为太夸张了，不切实际。但它确实可使你在短期内对数据造成一个大体印象：

看到了吧， 1行代码足以搞定！#noclickbait

最早看到的是总览（Overview，如上图所示），其中有数据和变量的一些高级统计，也包括一些警告，好比变量间的相关度高、偏度大等。

但这并非全部内容，往下看会发现还有不少本文的相关部分。单凭一张输出结果（由1行代码获得）的图片看不出什么，因此笔者将其换成了动图：

强烈建议你们探索一下这个包的功能，毕竟虽然说仅仅是1行代码，但说不定在之后作数据分析时会发现它很是有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn- data/master/planets.csv').profile_report()复制代码

留言点赞关注

咱们一块儿分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

（添加小编微信：dxsxbb，加入读者圈，一块儿讨论最新鲜的人工智能科技哦～）