10个数据可视化技巧,让你一看就懂!

我必须对你说实话:当我学习数据科学时,我彻底低估了绘图的重要性。没错,那时一切都一团糟:我从头开始学习 python、熟悉了全部可能的算法、理解了全部东西背后的数学原理,可是个人绘图技巧很糟糕。python

image

为何会这样?咱们老是在作一样的事情。你知道的:pairplots,distplots,qqplots…你在可视化数据时使用图表是理解数据的惟一方法。这些都是很是有用、通用和默认的图表。因此,复制和粘贴一堆代码成了我时最常作的事情。算法

image

对于个人项目来讲,可交付结果老是一个模型。因为数小时的数据清洗和特征工程,极可能会有一个不错的分数。我是我项目的惟一参与者,个人教授们在他们给我这些数据时就已经知道关于数据的一切。那我做图是为了给谁看?我本身?好吧…不必!对不?我比任何人都清楚每一步在实现什么,我不须要向任何人解释。机器学习

我相信这多是我在数据科学中的最大失败:没有充分考虑可解释性和可解释性的重要性。你多是个天才,但若是你不能向第三方解释你是如何获得这些美妙的结论,以及为何获得这些结论,那么你可能什么都不是。工具

例如,在 Ravelin Technology,咱们提供基于机器学习的欺诈预防解决方案。想象一下,你告诉一个客户,你封锁了 x% 的交易,只是由于机器学习模型是这样说的,但你根本不知道为何要这样作会怎样?固然,对于任何试图最大化环化率和销售状况的电子商务来讲,这都不是颇有吸引力,对吧?想象一下,在医疗保健等其余敏感领域出现一样的状况……那简直是灾难即未来临的千兆。学习

如今,除了与业务相关的问题,甚至从法律的角度或者从你的业务只关心预测的结果来看——无论你如何获得它们,理解一个算法其实是如何工做的对你会有帮助。你不只能更好地向客户解释输出的缘由,还能更好地协调数据科学家和分析师的工做。字体

可以向人们解释你的思惟过程是任何数据相关工做的关键部分。在这种状况下,复制和粘贴图表是不够的,图表的个性化变得很是重要。this

在这篇文章的剩余部分,我想和你们分享 10 个基本的中级和高级的绘图工具。我发如今现实生活中,当涉及到绘图解释你的数据时,这些工具很是有用。spa

我将在下面几行中引用的库:3d

Seaborn:import seaborn as sns
matplotlib:matplotlib.pyplot as plt

此外,若是须要,能够设置样式和你喜欢的格式,例如:code

plt.style.use('fivethirtyEight')
%config inlinebackend.figure\format='retina'
%matplotlib inline

说到这里,让咱们直接跳到这些工具:

绘制符合图

有时,你会想在一个图表中绘制出不一样的东西。但有时,你会但愿在同一行或列中抛出不一样的图表,相互补充和/或显示不一样的信息片断。

为此,这里给出一个很是基本但必不可少的工具:subplots。如何使用它?很简单。matplotlib 中的图表是一种结构,能够这样使用:

  • 图形:绘制图表的背景或画布
  • 轴:咱们的图表

一般,这些东西是在代码后台自动设置的,可是若是要绘制多个图形,咱们只须要按照如下方式建立图形和轴对象:

fig, ax = plt.subplots(ncols=number_of_cols, nrows=number_of_rows, figsize=(x,y)

例如,若是设置 ncols=1 和 nrows=2,咱们将建立一个由 x,y 轴组成的图形,其中只有两个图表,分布在两个不一样的行中。剩下的惟一事情是从 0 开始使用'ax'参数指定不一样绘图的顺序。例如:

sns.scatterplot(x=horizontal_data_1, y=vertical_data_1, ax=ax[0]);
sns.scatterplot(x=horizontal_data_2, y=vertical_data_2, ax=ax[1]);

轴标签

这可能看起来没有必要,或者不是颇有帮助,可是你没法想象,若是你的图表有点混乱,或者看到数据的人对此不是很熟悉,你会被问多少次 x/y 轴表明的是什么。按照前面的两个绘图示例,若是要为轴设置特定名称,则必须使用如下代码行:

ax[0].set(x label='My X Label',ylabel='My Y Label')
ax[1].set(xlabel='My Second X Label',ylabel='My Second and Very Creative Y Label')

设置标题

若是咱们要将数据呈现给第三方,另外一个基本但关键的要点是使用标题,它和以前的轴标记很是类似:

ax[0].title.set_text(‘This title has to be very clear and explicative’)
ax[1].title.set_text(‘And this title has to explain what’s different in this chart’

给图表重点元素作注释

一般状况下,仅仅在图表的左右两侧使用刻度自己并非很清楚。在图上标注值对于解释图表很是有用。

假设如今咱们使用 subplots,咱们有几个图表,其中一个是位于 ax[0] 位置的 seaborn 的 barplot。在这种状况下,在条形图中每一个条上获取注释的代码要复杂一些,但很容易实现:

for p in ax[0].patches:
ax[0].annotate(“%.2f” % p.get_height(), (p.get_x() + p.get_width() / 2., p.get_height()),
ha=’center’, va=’center’, fontsize=12, color=’white’, xytext=(0, -10), textcoords=’offset points’

对于图表中的每一个「patch」或条形图,直到「ha」参数获取条形图的位置、高度和宽度为止,以便将值注释放在正确的位置。以相似的方式,咱们还能够指定注释的对齐方式、字体大小和颜色,而「xytext」参数指示咱们是否要在某个 x 或 y 方向移动注释。在上面的例子中,咱们将在 y 轴上向下移动注释文本。

使用不一样颜色区分标签

在某些状况下,在一段时间或一系列的值中,咱们可能测量了不一样种类的物体。例如,假设咱们测量 6 个月以来狗和猫的体重。在实验结束时,咱们想画出每只动物的体重,分别用蓝色和红色区分猫和狗。为此,在大多数传统绘图中,咱们可使用参数「hue」为元素提供颜色列表。

举个例子:

weight = [5,4,8,2,6,2] month = [‘febrero’,’enero’,’abril’,’junio’,’marzo’,’mayo’]
 animal_type = [‘dog’,’cat’,’cat’,’dog’,’dog’,’dog’] hue = [‘blue’,’red’,’red’,’blue’,’blue’,’blue’] sns.scatterplot(x=month, y=weight, hue=hue);

image

改变散点图中点的大小

使用上面的相同示例,咱们还可使用从 1 到 5 的刻度表示图表中动物的大小。将此额外指标添加到绘图中的一个好选择是修改散点图的大小,经过「size」参数将大小指定给新的附加向量,并使用「size」调整它们之间的关系:

size = [2,3,5,1,4,1]
sns.scatterplot(x=month, y=weight, hue=hue, size=size, sizes= (50,300));

image

顺便说一下,若是如上图所示,图例使绘图更难阅读,你能够将「legend」参数设置为 false。

在数据中包含一行以显示阈值

在现实生活中的许多状况下,数据高于或低于某个阈值多是问题提示信号或错误警告。若是要在绘图中清楚地显示,可使用如下命令添加一行:

ax[0].axvline(32,0,c='r')

加在哪里?

ax[0] 将是咱们要在其中插入行的图表
32 将是绘制线的值
c = 'r' 表示图表将是红色的

若是咱们使用的是 subplots,那么将 axvline 添加到相应的 axe 就很简单,如上面的示例所示。可是,若是不使用 subplots,则应执行如下操做:

g=sns.scatterplot(x=month,y=weight,hue=hue,legend=false)
g.axvline(2,c='r')
plt.show()

image

多Y轴绘图

这多是最简单,但也是最有用的技巧之一。

有时咱们只须要在图表中添加更多信息,除了在绘图的右 y 轴上添加新的度量以外,没有其余方法能够绕过它:

ax2=ax[0].twinx()

如今能够添加任何要将「ax」参数指向「ax2」的图表

sns.lineplot(x=month, y=average_animal_weight, ax=ax2

请注意,这个例子再次假设你使用的是 subplots。若是没有,你应该遵循与前一点相同的逻辑:

g = sns.scatterplot(x=month, y=weight, hue=hue, legend=False)
g.axvline(2,c=’r’)
ax2 = g.twinx()
sns.lineplot(x=month, y=average_animal_weight, ax=ax2, c=’y’)
plt.show()

请注意,要使其工做,你应该为两个图表中的 x 轴设置始终相同的数据。不然,它们就不匹配了。

重叠绘图和更改标签和颜色

在同一轴上重叠图表很容易:咱们只须要为全部想要的绘图编写代码,而后,咱们能够简单地调用'plt.show()'将它们所有绘制在一块儿:

a=[1,2,3,4,5]
b=[4,5,6,2,2]
c=[2,5,6,2,1]
sns.lineplot(x=a,y=b,c='r')
sns.lineplot(x=a,y=c,c='b')
plt.show()

image

然而,有时重叠会致使混淆,因此咱们可能须要作一些改进,让人更容易理解。

例如,假设你但愿在同一个图形中重叠你采集的两个不一样样本的身高分布:一个来自你的同事,另外一个来自当地的篮球队。最好添加一些个性化的东西,如不一样的颜色,并添加一个图例,代表它们具体表明的是哪个。好吧,简单点:

设置「colour」标签,咱们能够为每个设置一种特定的颜色。请注意,有时此参数能够更改成简单的「c」

使用「label」参数,咱们能够经过简单地调用 x.legend()用来指定要显示的任何文本

举个例子:

g = sns.distplot(workmates_height, color=’b’, label=’Workmates’)
sns.distplot(basketball_team, color=’r’, ax=g, label=’Basket team’)
g.legend()
plt.show()
10. 在条形图中设置轴的顺序

最后是一个很是特殊的工具~若是你喜欢使用条形图,你可能会面临这样的问题:你的条形图没有按照你想要的顺序排列。在这种状况下,有一个简单的修复方法,将一个带有你想要的特定顺序的列表传递给「order」参数:

a=['second','first','third']
b=[15,10,20]
sns.barplot(x=a,y=b,order=['first','second','third']);

image

绘图自己就是一个世界,根据个人经验,提升你技能的最好方法就是练习。但我但愿这些工具和技巧能帮助你作好现实中数据科学的工做,就像当初帮助我同样。

https://towardsdatascience.co...

相关文章
相关标签/搜索