seaborn教程3——数据集的分布可视化

时间 2020-05-05

标签 seaborn 教程数据分布可视化繁體版

原文原文链接

原文转载：https://segmentfault.com/a/1190000015006667

Seaborn学习大纲

seaborn的学习内容主要包含如下几个部分：php

风格管理segmentfault
- 绘图风格设置
- 颜色风格设置
绘图方法app
- 数据集的分布可视化
- 分类数据可视化
- 线性关系可视化
结构网格dom
- 数据识别网格绘图

本次将主要介绍数据集的分布可视化的使用。函数

数据集分布可视化

当处理一个数据集的时候，咱们常常会想要先看看特征变量是如何分布的。这会让咱们对数据特征有个很好的初始认识，同时也会影响后续数据分析以及特征工程的方法。本篇将会介绍如何使用 seaborn 的一些工具来检测单变量和双变量分布状况。工具

首先仍是先导入须要的模块和数据集。学习

1 %matplotlib inline 2 import numpy as np 3 import pandas as pd 4 from scipy import stats, integrate 5 import matplotlib.pyplot as plt 6 import seaborn as sns 7 sns.set(color_codes=True) 8 np.random.seed(sum(map(ord, "distributions")))

注意：这里的数据集是随机产生的分布数据，由 numpy 生成，数据类型是ndarray。固然，pandas 的 Series 数据类型也是可使用的，好比咱们常常须要从 DataFrame 表中提取某一特征（某一列）来查看分布状况。编码

一、绘制单变量分布

在 seaborn 中，快速观察单变量分布的最方便的方法就是使用 distplot() 函数。spa

1.1 默认会使用柱状图(histogram)来绘制，并提供一个适配的核密度估计(KDE)。

1 x = np.random.normal(size=100) 2 sns.distplot(x);

1.2 直方图（histograms）

直方图是比较常见的，而且在 matplotlib 中已经存在了 hist 函数。直方图在横坐标的数据值范围内均等分的造成必定数量的数据段（bins），并在每一个数据段内用矩形条（bars）显示y轴观察数量的方式，完成了对的数据分布的可视化展现。3d

为了说明这个，咱们能够移除 kde plot，而后添加 rug plot（在每一个观察点上的垂直小标签）。固然，你也可使用 rug plot 自带的 rugplot() 函数，可是也一样能够在 distplot 中实现：

sns.distplot(x, kde=False, rug=True);

当绘制直方图时，你最须要肯定的参数是矩形条的数目以及如何放置它们。distplot()使用了一个简单的规则推测出默认状况下最合适的数量，可是或多或少的对 bins 数量进行一些尝试也许能找出数据的其它特征

sns.distplot(x, bins=20, kde=False, rug=True);

1.3 核密度估计（Kernel density estimation）

核密度估计可能不被你们所熟悉，但它对于绘制分布的形状是一个很是有用的工具。就像直方图那样，KDE plots 会在一个轴上经过高度沿着其它轴将观察的密度编码。

sns.distplot(x, hist=False, rug=True);

绘制 KDE 比绘制直方图须要更多的计算。它的计算过程是这样的，每一个观察点首先都被以这个点为中心的正态分布曲线所替代。

 1 x = np.random.normal(0, 1, size=30)  2 bandwidth = 1.06 * x.std() * x.size ** (-1 / 5.)  3 support = np.linspace(-4, 4, 200)  4 
 5 kernels = []  6 for x_i in x:  7 
 8     kernel = stats.norm(x_i, bandwidth).pdf(support)  9  kernels.append(kernel) 10     plt.plot(support, kernel, color="r") 11 
12 sns.rugplot(x, color=".2", linewidth=3);

而后，这些替代的曲线进行加和，并计算出在每一个点的密度值。最终生成的曲线被归一化，以使得曲线下面包围的面积是1。

1 density = np.sum(kernels, axis=0) 2 density /= integrate.trapz(density, support) 3 plt.plot(support, density);

咱们能够看到，若是咱们使用 kdeplot() 函数，咱们能够获得相同的曲线。这个函数实际上也被 distplot() 所使用，可是若是你就只想要密度估计，那么 kdeplot() 会提供一个直接的接口更简单的操做其它选项。

sns.kdeplot(x, shade=True);

KDE 的带宽参数（bw）控制着密度估计曲线的宽窄形状，有点相似直方图中的 bins 参数的做用。它对应着咱们上面绘制的 KDE 的宽度。默认状况下，函数会按照一个通用的参考规则来估算出一个合适的值，可是尝试更大或者更小也可能会有帮助：

1 sns.kdeplot(x,label='default') 2 sns.kdeplot(x, bw=.2, label="bw: 0.2") 3 sns.kdeplot(x, bw=2, label="bw: 2") 4 plt.legend();

如上所述，高斯KDE过程的意味着估计延续了数据集中最大和最小的值。能够经过cut参数来控制绘制曲线的极值值的距离; 然而，这只影响曲线的绘制方式，而不是曲线如何拟合：

1 sns.kdeplot(x, shade=True, cut=0,label='cut=0') 2 sns.kdeplot(x, shade=True, cut=1,label='cut=1') 3 sns.kdeplot(x, shade=True,label='no_cut') 4 sns.rugplot(x);

1.4 拟合参数分布

你也可使用distplot()将参数分布拟合到数据集，并可视化地评估其与观察数据的对应程度：

x = np.random.gamma(6, size=200) sns.distplot(x, kde=False, fit=stats.gamma);

二、绘制双变量分布

对于双变量分布的可视化也是很是有用的。在 seaborn 中最简单的方法就是使用 joinplot() 函数，它可以建立一个多面板图形来展现两个变量之间的联合关系，以及每一个轴上单变量的分布状况。

1 mean, cov = [0, 1], [(1, .5), (.5, 1)] 2 data = np.random.multivariate_normal(mean, cov, 200) 3 df = pd.DataFrame(data, columns=["x", "y"])

2.1 Scatterplots

双变量分布最熟悉的可视化方法无疑是散点图了，在散点图中每一个观察结果以x轴和y轴值所对应的点展现。你能够用 matplotlib 的 plt.scatter 函数来绘制一个散点图，它也是jointplot()函数显示的默认方式。

1 plt.scatter(x="x", y="y", data=df)

sns.jointplot(x="x", y="y", data=df)

2.2 Hexbin plots

直方图 histogram 的双变量相似图被称为 “hexbin” 图，由于它展现了落在六角形箱内的观测量。这种绘图对于相对大的数据集效果最好。它能够经过 matplotlib 的 plt.hexbin 函数使用，也能够做为 jointplot 的一种类型参数使用。它使用白色背景的时候视觉效果最好。

x, y = np.random.multivariate_normal(mean, cov, 1000).T with sns.axes_style("white"): sns.jointplot(x=x, y=y, kind="hex", color="k");

2.3 Kernel density estimation

还使用上面描述的核密度估计过程来可视化双变量分布。在 seaborn 中，这种绘图以等高线图展现，而且能够做为 jointplot()的一种类型参数使用。

sns.jointplot(x="x", y="y", data=df, kind="kde");

2.4 你也能够用 `kdeplot` 函数来绘制一个二维的核密度图形。这能够将这种绘图绘制到一个特定的（可能已经存在的）matplotlib轴上，而`jointplot()`函数只能管理本身：

1 f, ax = plt.subplots(figsize=(6, 6)) 2 sns.kdeplot(df.x, df.y, ax=ax) 3 sns.rugplot(df.x, color="g", ax=ax) 4 sns.rugplot(df.y, vertical=True, ax=ax);

若是你但愿让双变量密度看起来更连续，您能够简单地增长 n_levels 参数增长轮廓级数：

1 f, ax = plt.subplots(figsize=(6, 6)) 2 cmap = sns.cubehelix_palette(as_cmap=True, dark=0, light=1, reverse=True) 3 sns.kdeplot(df.x, df.y, cmap=cmap, n_levels=60, shade=True);