首先,这个Python数据可视化实战是在Iris数据集上完成的。所使用的是Python 3环境下的jupyter notebook。html
实战中咱们须要用到的库包括:pandas , matplotlib , seaborn.python
%matplotlib notebook #在jupyter notebook使用交互式绘图
# 首先,咱们导入pandas, 一个可用于数据处理和CSV文件输出输出的库 import pandas as pd # 同时导入seaborn, 一个Python里面的图形库 import warnings # 当前版本的seaborn会生成一堆警告,咱们会忽略它 warnings.filterwarnings("ignore") import seaborn as sns import matplotlib.pyplot as plt sns.set(style="white", color_codes=True) # 接着咱们导入Iris flower 数据集, 这个数据集是在路径"../input/" 下面 iris = pd.read_csv("./input/iris.csv") # the iris dataset is now a Pandas DataFrame #Jupyter notebooks显示数据集的前5行 iris.head() # 按下shift+enter来执行单元格
# 统计每一个品种有多少个样本 iris["Species"].value_counts()
setosa 50 virginica 50 versicolor 50 Name: Species, dtype: int64
# 第一种方法咱们用Pandas dataframes扩展的.plot来画图 # 咱们将用这个来画出irisz中Sepal_Length和Sepal_Width特征的散点图。 iris.plot(kind="scatter", x="Sepal_Length", y="Sepal_Width")
# 咱们也可使用seaborn库来话类似的图 # 一个seaborn的结合图在同一图中显示了双变量散点图和单变量直方图 sns.jointplot(x="Sepal_Length", y="Sepal_Width", data=iris, size=5)
# 在上面的图中缺失的一些信息是每一种植物的种类 # 咱们将使用seaborn的FacetGrid来为散点图上色 sns.FacetGrid(iris, hue="Species", size=5) \ .map(plt.scatter, "Sepal_Length", "Sepal_Width") \ .add_legend()
# 咱们能够经过一个箱形图来查看seaborn的单独的一个特征 sns.boxplot(x="Species", y="Petal_Length", data=iris)
# 咱们能够经过用seaborn的striplot添加单独的点来扩展上图 # # 咱们将使用jitter=True,这样全部的点都不会落在物种的单条垂直线上 # # 每次将产生的轴做为ax,每次都会致使结果图显示在前面的axes上 ax = sns.boxplot(x="Species", y="Petal_Length", data=iris) ax = sns.stripplot(x="Species", y="Petal_Length", data=iris, jitter=True, edgecolor="gray")
# violinplot结合了前两个plot的优势并简化了它们 # 在violinplot中,更密集的数据区域更胖,更稀疏的数据区域更薄 sns.violinplot(x="Species", y="Petal_Length", data=iris, size=6)
# 最后一个用于研究单变量关系的seaborn plot是kdeplot,它建立并可视化了底层特性的内核密度估计 sns.FacetGrid(iris, hue="Species", size=6) \ .map(sns.kdeplot, "Petal_Length") \ .add_legend()
# 另外一个有用的seaborn plot是pairplot,它显示了每一对特征之间的双变量关系 # 从pairplot中,咱们能够看到Iris-setosa物种在全部特征组合中与另外两种都是分离的 sns.pairplot(iris.drop("ID", axis=1), hue="Species", size=3)
# 在pairplot中,对角线元素在默认状况下显示了直方图 # 咱们能够更新这些元素以显示其余东西,好比kde sns.pairplot(iris.drop("ID", axis=1), hue="Species", size=3, diag_kind="kde")
# 讲解完seaborn以后,让咱们回到pandas中 # 咱们能够快速制做一个Pandas的箱形图,每一个特征按物种划分 iris.drop("ID", axis=1).boxplot(by="Species", figsize=(12, 6))
# Andrews曲线涉及使用样本的属性做为傅立叶级数的系数,而后进行绘制 from pandas.tools.plotting import andrews_curves andrews_curves(iris.drop("ID", axis=1), "Species")
# pandas另外一种多变量可视化技术是parallel_coordinates # 平行坐标在单独的列上绘制每一个特征。而后绘制链接每一个数据样本要素的线条 from pandas.tools.plotting import parallel_coordinates parallel_coordinates(iris.drop("ID", axis=1), "Species")
# pandas最后的多变量可视化技术是radviz,它将每一个特征做为一个点放在2D平面上,而后经过由该特征的相对值加权的跳跃加到这些点上来模拟每一个样本 from pandas.tools.plotting import radviz radviz(iris.drop("ID", axis=1), "Species")
参考连接:api
https://www.kaggle.com/benhamner/python-data-visualizations3d
http://seaborn.pydata.org/api.htmlcode
http://seaborn.pydata.org/tutorial.html#htm
http://pandas.pydata.org/pandas-docs/stable/visualization.htmlblog