分享10个数据分析的小技巧（Python）

时间 2019-12-13

原文原文链接

一些小提示和小技巧多是很是有用的，特别是在编程领域。有时候使用一点点黑客技术，既能够节省时间，还可能挽救“生命”。html

一个小小的快捷方式或附加组件有时真是天赐之物，而且能够成为真正的生产力助推器。因此，这里有一些小提示和小技巧，有些多是新的，但我相信在下一个数据分析项目中会让你很是方便。node

Pandas中数据框数据的Profiling过程python

Profiling（分析器）是一个帮助咱们理解数据的过程，而Pandas Profiling是一个Python包，它能够简单快速地对Pandas 的数据框数据进行探索性数据分析。编程

Pandas中df.describe和df.info函数能够实现EDA过程第一步。可是，它们只提供了对数据很是基本的概述，对于大型数据集没有太大帮助。而Pandas中的Profiling功能简单经过一行代码就能显示大量信息，且在交互式HTML报告中也是如此。数据结构

对于给定的数据集，Pandas中的profiling包计算了如下统计信息：函数

由Pandas Profiling包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其余信息——类型、单一变量值、缺失值等。ui

安装编码

用pip安装或者用conda安装url

pipinstall pandas-profilingcondainstall -c anaconda pandas-profiling命令行

用法

下面代码是用好久之前的泰坦尼克数据集来演示多功能Python分析器的结果。

#importing the necessary packagesimport pandas as pdimport pandas_profilingdf = pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)

一行代码就能实如今Jupyter Notebook中显示完整的数据分析报告，该报告很是详细，且包含了必要的图表信息。

还可使用如下代码将报告导出到交互式HTML文件中。

profile = pandas_profiling.ProfileReport(df)profile.to_file(outputfile="Titanic data profiling.html")

Pandas实现交互式做图

Pandas有一个内置的.plot函数做为DataFrame类的一部分。可是，使用此功能呈现的可视化不是交互式的，这使得它没那么吸引人。一样，使用pandas.DataFrame.plot函数绘制图表也不能实现交互。若是咱们须要在不对代码进行重大修改的状况下用Pandas绘制交互式图表怎么办呢？这个时候就能够用Cufflinks库来实现。

Cufflinks库能够将有强大功能的plotly和拥有灵活性的pandas结合在一块儿，很是便于绘图。下面就来看在pandas中如何安装和使用Cufflinks库。

安装

pip install plotly# Plotly is a pre-requisite before installing cufflinkspip install cufflinks#importing Pandas#importing plotly and cufflinks in offline modeimport cufflinks as cfimport plotly.offlinecf.go_offlinecf.set_config_file(offline=False, world_readable=True)

是时候展现泰坦尼克号数据集的魔力了。

df.iplot

df.iplot vsdf.plot

右侧的可视化显示了静态图表，而左侧图表是交互式的，更详细，而且全部这些在语法上都没有任何重大更改。

Magic命令

Magic命令是Jupyter notebook中的一组便捷功能，旨在解决标准数据分析中的一些常见问题。使用命令％lsmagic能够看到全部的可用命令。

全部可用的Magic命令列表

Magic命令有两种：行magic命令（line magics），以单个％字符为前缀，在单行输入操做；单元magic命令（cell magics），以双%%字符为前缀，能够在多行输入操做。若是设置为1，则不用键入%便可调用Magic函数。

接下来看一些在常见数据分析任务中可能用到的命令：

% pastebin

％pastebin将代码上传到Pastebin并返回url。Pastebin是一个在线内容托管服务，能够存储纯文本，如源代码片断，而后经过url能够与其余人共享。事实上，Github gist也相似于pastebin，只是有版本控制。

在file.py文件中写一个包含如下内容的python脚本，并试着运行看看结果。

#file.pydeffoo(x):return x

在Jupyter Notebook中使用％pastebin生成一个pastebin url。

%matplotlib notebook

函数用于在Jupyter notebook中呈现静态matplotlib图。用notebook替换inline，能够轻松得到可缩放和可调整大小的绘图。但记得这个函数要在导入matplotlib库以前调用。

%run

用％run函数在notebook中运行一个python脚本试试。

%run file.py%%writefile

%% writefile是将单元格内容写入文件中。如下代码将脚本写入名为foo.py的文件并保存在当前目录中。

%%latex

%%latex函数将单元格内容以LaTeX形式呈现。此函数对于在单元格中编写数学公式和方程颇有用。

查找并解决错误

交互式调试器也是一个神奇的功能，我把它单独定义了一类。若是在运行代码单元时出现异常，请在新行中键入％debug并运行它。这将打开一个交互式调试环境，它能直接定位到发生异常的位置。还能够检查程序中分配的变量值，并在此处执行操做。退出调试器单击q便可。

Printing也有小技巧

若是您想生成美观的数据结构，pprint是首选。它在打印字典数据或JSON数据时特别有用。接下来看一个使用print和pprint来显示输出的示例。

让你的笔记脱颖而出

咱们能够在您的Jupyter notebook中使用警示框/注释框来突出显示重要内容或其余须要突出的内容。注释的颜色取决于指定的警报类型。只需在须要突出显示的单元格中添加如下任一代码或全部代码便可。

蓝色警示框：信息提示

Tip: Use blue boxes (alert-info) for tips and notes.If it’s a note, you don’t have to include the word “Note”.

黄色警示框：警告

Example: Yellow Boxes are generally used to include additional examples or mathematical formulas.

绿色警示框：成功

Use green box only when necessary like to display links to related content.

红色警示框：高危

It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.

打印单元格全部代码的输出结果

假若有一个Jupyter Notebook的单元格，其中包含如下代码行：

In[1]: 10+511+6Out[1]: 17

单元格的正常属性是只打印最后一个输出，而对于其余输出，咱们须要添加print函数。然而经过在notebook顶部添加如下代码段能够一次打印全部输出。

添加代码后全部的输出结果就会一个接一个地打印出来。

In[1]: 10+511+612+7Out[1]: 15Out[1]: 17Out[1]: 19

恢复原始设置：

InteractiveShell.ast_node_interactivity = "last_expr"

使用'i'选项运行python脚本

从命令行运行python脚本的典型方法是：python hello.py。可是，若是在运行相同的脚本时添加-i，例如python -i hello.py，就能提供更多优点。接下来看看结果如何。

首先，即便程序结束，python也不会退出解释器。所以，咱们能够检查变量的值和程序中定义的函数的正确性。

其次，咱们能够轻松地调用python调试器，由于咱们仍然在解释器中：

import pdbpdb.pm

这能定位异常发生的位置，而后咱们能够处理异常代码。

自动评论代码

Ctrl / Cmd + /自动注释单元格中的选定行，再次命中组合将取消注释相同的代码行。

删除容易恢复难

你有没有意外删除过Jupyter notebook中的单元格？若是答案是确定的，那么能够掌握这个撤消删除操做的快捷方式。

若是您删除了单元格的内容，能够经过按CTRL / CMD + Z轻松恢复它。

若是须要恢复整个已删除的单元格，请按ESC + Z或EDIT>撤消删除单元格。

结论

在本文中，我列出了使用Python和Jupyter notebook时收集的一些小提示。我相信它们会对你有用，能让你有所收获，从而实现轻松编码！

来源商业新知网，原标题：收藏 | 10个能够快速用Python进行数据分析的小技巧