数据概览神器—Pandas-profiling

分析一个问题,从对样本进行探索开始。
Python中有不少经常使用的数据分析函数,能够帮助咱们对样本有一个初步的认识,好比describe()函数,能够很方便地生成每一个变量的最大值、最小值、分位数等。
今天给你们介绍一个特别牛逼的函数,一行代码就能实现原始数据集的概览分析,进而能够保存成html报告。
接下来揭开这个神奇函数的面纱吧
若是想看效果,可跳过第一部分的安装库教程。

本文目录
  1. 安装pandas_profiling库css

    1.1 pip install 安装html

    1.2 whl文件安装python

    1.3 方法三nginx

  2. 使用pandas_profilinggit

    2.1 加载数据github

    2.2 一行代码生成报告web

    2.3 一行代码保存报告ruby


1、安装pandas_profiling

 1  方法一:pip install 安装
微信

有些小伙伴直接在cmd中运行 pip install pandas_profiling 就能够成功安装这个库。app

那真的该恭喜你了。

个人运行会报以下错误:

因此我准备直接下载whl文件进行安装。


 2  方法二:whl文件安装

首先到以下网站下载whl文件:https://pypi.org/project/pandas-profiling/#files,可能会出现没有反应的状况,多进几回就行了。

进去后点击Dowload Files,下载右边红框中的whl文件到本地。

在whl文件所在文件夹打开cmd,运行pip install XXX.whl,有些小伙伴能够成功安装该库。

个人一直安装不了,会报以下错误

找了好久的资料,结合报错的提示,终于运行完以下语句后成功安装了pandas_profiling库

pip install --user pandas_profiling-2.9.0-py2.py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

但是在jupyter中使用Pandas_Profiling.ProfilingReport时会报以下错误:concat() got an unexpected keyword argument ‘join_axes’,经查是pandas和Pandas_Profiling版本太低致使。

在cmd中运行 pip install --upgrade pandas和pip install --upgrade pandas_Profiling 便可。


 3  方法三

若是还有小伙伴安装很差,能够试下以下方法:

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip


2、使用pandas_profiling

 1  加载数据

首先加载包和数据。

import pandas as pdimport pandas_profilingdf = pd.read_csv('testtdmodel.csv',sep=',',encoding='gb18030')data = df[['3个月内申请人在多个平台申请借款', '7天内借款人手机申请借款平台数', '1个月内借款人手机申请借款平台数']]data = data.astype(float)


 2  一行代码生成报告

运行以下语句能够生成数据分析基本报告。

pandas_profiling.ProfileReport(data)
报告包含如下几部分:

1. Overview(数据基本状况):包括数据集中变量个数(3)、样本行数(7252)、缺失行数(0)、缺失率(0%)、重复行数(6674)、重复率(92%)、内存占用状况等。

Overview中还包含了Warnings模块,能够点击查看数据集的重复状况和变量的0值个数。

2. Variables(单变量状况):包括单变量值个数(54)、均值(3.88499)、最小值(0)、最大值(82)、缺失值(0)、缺失率(0%)等。

点击橙色框中的Toggle details能够获得更详细的单变量分析状况。
包括一些统计指标、单变量直方图、次数出现top的值对应占比状况、最小的几个值和最大的几个值的频率。

3.  Interactions(交互性分析):每两个变量进行图展现

4. Correlations(相关性分析):展现两两变量之间的相关性,值介于-1到1之间,小框中的颜色对应右边的相关性数值

5.  Missing values(缺失值状况):展现每一个变量的缺失值状况,这里三个变量都是7252个,不存在缺失值

6. Sample(样本示例):展现样本的前十行(至关于head(10))和后十行


7. Duplicate rows(重复行展现):展现重复行统计前十的行

一行代码就能够很方便地生成大部分咱们须要的统计指标,是否是特别实用呀?

若是咱们想把这个报告保存下来,应该怎么办呢?


 3  一行代码保存报告

运行以下语句能够保存成html报告。

data.profile_report(title='Data').to_file('Data.html')
能够把html版的报告下载下来,发给须要使用的人,很是方便。

至此, pandas_profiling函数介绍完了,须要使用的朋友能够早日安装应用。
不过建议你们生成报告的字段名称改为英文的,避免生成的报告出现乱码。
参考文献:
https://www.jianshu.com/p/a1f39f57dd91https://www.cnblogs.com/hankleo/p/11728325.html
往期回顾:
3D星空图
3D星空图V2版
520表白代码合集
用python绘制皮卡丘

娱乐圈排行榜动态条形图绘制

扫一扫关注我

19967879837

投稿微信号

本文分享自微信公众号 - 阿黎逸阳的代码(gh_f3910c467dfe)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索