Python可视化:Seaborn(二)

本文由 保一雄@科赛网 数据分析师 原创。


Seaborn是一个很棒的可视化库,尤为是当数据维度很大时,它可让咱们用最少的代码去绘制一些描述性统计的图,便于找寻各维度变量之间的特征。算法

继上篇Python可视化:Seaborn(一),分享过用Seaborn作Distribution Visualization,本篇咱们将分享用Seaborn作Categorial Visualization,包括其中涉及的Stripplot & Swarmplot,Boxplot & Violinplot,Barplot & Pointplot,以及抽象化的Factorplot。app


咱们此处结合科赛网上公开的Iris鸢尾花数据集进行演示说明。ide

文中全部完整源代码都可经过 K-Lab在线数据分析协做工具 复现。它 涵盖了Python、R等主流语言,完成了包括Seaborn、Pandas、Numpy等90%以上数据分析&挖掘相关库的部署,帮助数据人才专一数据分析自己,提升效率。
Iris鸢尾花数据集:是经常使用的分类实验数据集,由Fisher, 1936收集整理。是一类多重变量分析的数据集。共包含150个数据集,分为3类,每类50个数据,每一个数据包含4个属性。可经过花萼长度(sepal_length),花萼宽度(sepal_width),花瓣长度(petal_length),花瓣宽度(petal_width)4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。


导入库工具

import warnings warnings.filter
warnings("ignore") 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt %matplotlib inline 
import seaborn as sns


Stripplot

Stripplot的本质就是把数据集中具备Quantitative属性的变量按照类别去作散点图(Scatterplot)。
post

咱们将纸鸢花数据集中不一样种类花的Sepal Length作Stripplot可视化。学习

plt.figure(1,figsize=(12,6)) 
 plt.subplot(1,2,1) 
sns.stripplot(x='species',y='sepal_length',data=iris) #stripplot 
plt.title('Striplot of sepal length of Iris species')with sns.axes_style("whitegrid"): # 这个是临时设置样式的命令,若是不写,则按默认格式'darkgrid'进行绘制 
 plt.subplot(1,2,2) 
 plt.title('Striplot of sepal length of Iris species') sns.stripplot(x='species',y='sepal_length',data=iris,jitter=True) # jitterplot 
 plt.show()


上边左侧的图片即是在默认风格下用Stripplot绘制的散点图。在不少状况下,Stripplot中的点会重叠,使得咱们不容易看出点的分布状况。一个简单的解决办法就是用在Stripplot的基础上绘制抖动图(jitterplot),仅沿着类别坐标轴的方向去随机微调整点的位置,显示出分布状况。spa


Swarmplot

另外一个解决Stripplot中点重叠的办法就是绘制Swarmplot,它的本质就是用经过算法,在类别坐标轴的方向上去‘延展’绘制这些本来重合的点。 咱们将纸鸢花数据集中不一样种类花的Petal Length和Petal width作Swarmplot可视化。
3d

plt.figure(1,figsize=(12,6)) 
plt.subplot(1,2,1) 
sns.swarmplot(x='species',y='petal_length',data=iris) 
with sns.axes_style("ticks"): # 此次使用了ticks风格 
plt.subplot(1,2,2) 
 sns.swarmplot(x='species',y='petal_width',data=iris) 
 plt.show()



Boxplot

箱形图,主要包含六个数据节点,将一组数据从大到小排列,分别计算出上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有异常值。 下面将纸鸢花数据集中的四个变量sepal_length, sepal_width, petal_length和petal_width作箱形图可视化。
cdn

var = ['sepal_length','sepal_width','petal_length','petal_width'] 
axes_style = ['ticks','white','whitegrid', 'dark'] 
fig = plt.figure(1,figsize=(12,12))for i in range(4): with sns.axes_style(axes_style[i]): # 将除了默认的darkgrid以外的样式都展示一遍 
 plt.subplot(2,2,i+1) sns.boxplot(x='species',y=var[i],data=iris) 
 plt.show()



Violinplot

Violinplot至关于结合了箱形图与核密度图,更好地展示出数据的量化形态。
blog

context= ['notebook','paper','talk','poster'] 
axes_style = ['ticks','white','whitegrid', 'dark'] 
 plt.figure(1,figsize=(12,12))for i in range(4): with sns.axes_style(axes_style[i]):#设置axes_style 
 sns.set_context(context[i]) # 设置context style,默认为notebook,除此以外还有paper,talk,poster 
 plt.subplot(2,2,i+1) 
 plt.title(str(var[i])+ ' in Iris species') 
 sns.violinplot(x='species',y=var[i],data=iris) 
 plt.show()


Violinplot用Kernel Density Estimate去更好地描述了quantitative变量的分布。


与此同时,也能够组合Swarmplot和Boxplot或Violinplot去描述Quantitative变量。用鸢尾花数据集展现以下:

context= ['notebook','paper','talk','poster'] 
axes_style = ['ticks','white','whitegrid', 'dark'] 
 plt.figure(1,figsize=(12,12))for i in range(4): with 
sns.axes_style(axes_style[i]):#设置axes_style sns.set_context(context[i])#设置context 
plt.subplot(2,2,i+1) 
 plt.title(str(var[i])+ ' in Iris species') 
 sns.swarmplot(x='species', y=var[i], data=iris, color="w", alpha=.5) 
sns.violinplot(x='species', y=var[i], data=iris, inner=None) if i%2 ==0 \ else sns.boxplot(x='species', y=var[i], data=iris) # 分别用swarmplot+violinplot 和swarmplot + boxplot 
 plt.show()


Barplot

Barplot主要是展示在分类中的Quantitative变量的平均值状况,而且用了Boostrapping算法计算了估计值的置信区间和Error bar.用鸢尾花数据集。

plt.figure(1,figsize=(12,12))for i in range(4): with sns.axes_style(axes_style[i]):#设置axes_style 
 sns.set_context(context[i]) # 设置context style,默认为notebook,除此以外还有paper,talk,poster plt.subplot(2,2,i+1) 
 plt.title(str(var[i])+ ' in Iris species') sns.barplot(x='species',y=var[i],data=iris) 
plt.show()


Countplot

若是想知道在每一个类别下面有多少个观察值,用Countplot就能够,至关因而作一个Observation Counts,用鸢尾花数据集展现以下:

plt.figure(figsize=(5,5)) sns.countplot(y="species", data=iris) # 设置y='species',将countplot水平放置 
plt.title('Iris species count') 
plt.show()


Pointplot

Pointplot至关因而对Barplot作了一个横向延伸,一方面,用Point Estimate和Confidence Level去展现Barplot的内容;另外一方面,当每个主类别下面有更细分的Sub-Category的时候,Pointplot能够便于观察不一样Sub-Category在各主类别之间的联系。展现以下:

plt.figure(1,figsize=(12,12))for i in range(4): with sns.axes_style(axes_style[i]):#设置axes_style 
 sns.set_context(context[i]) # 设置context style,默认为notebook,除此以外还有paper,talk,poster plt.subplot(2,2,i+1) 
 plt.title(str(var[i])+ ' in Iris species') sns.pointplot(x='species',y=var[i],data=iris) 
plt.show()


Factorplot

Factorplot能够说是Seaborn作Category Visualization的精髓,前面讲的这些Plot均可以说是Factorplot的具体展现。咱们能够用PariGrid去实现对多个类别的数值特征用同一种Plot作可视化。

sns.set(style="ticks") g = sns.PairGrid(iris, x_vars = ['sepal_length','sepal_width','petal_length','petal_width'], y_vars = 'species', aspect=0.75,size=4) # 设置间距和图片大小 g.map(sns.violinplot,palette='pastel') 
plt.show()


在这个数据集中,Quantitative的变量主要有房屋的面积Area,每平米单价Price,以及房屋总价Tprice。


科赛网(kesci.com)是聚合数据人才和行业问题的在线社区,重点打造的K-Lab在线数据分析协做平台,为数据工做者的学习与工做带来全新的体验。

相关文章
相关标签/搜索