转自:https://mp.weixin.qq.com/s/FNpNJSMK5Vs8pwi0PbbBzwgit
说明:图片没法直接复制,请查看原文github
导读:Plotly Express 是一个新的高级 Python 可视化库:它是 Plotly.py 的高级封装,它为复杂的图表提供了一个简单的语法。express
受 Seaborn 和 ggplot2 的启发,它专门设计为具备简洁,一致且易于学习的 API :只需一次导入,你就能够在一个函数调用中建立丰富的交互式绘图,包括分面绘图(faceting)、地图、动画和趋势线。它带有数据集、颜色面板和主题,就像 Plotly.py 同样。框架
01 Plotly Express 入门之路编辑器
Plotly Express 彻底免费:凭借其宽松的开源 MIT 许可证,你能够随意使用它(是的,甚至在商业产品中!)。 函数
最重要的是,Plotly Express 与 Plotly 生态系统的其余部分彻底兼容:在你的 Dash 应用程序中使用它,使用 Orca 将你的数据导出为几乎任何文件格式,或使用JupyterLab 图表编辑器在 GUI 中编辑它们!工具
用 pip install plotly_express
命令能够安装 Plotly Express。学习
一旦导入Plotly Express(一般是 px
),大多数绘图只须要一个函数调用,接受一个整洁的Pandas dataframe,并简单描述你想要制做的图。若是你想要一个基本的散点图,它只是 px.scatter(data,x ="column_name",y ="column_name")
。字体
如下是 内置的 Gapminder 数据集 的示例,显示2007年按国家/地区的人均预期寿命和人均GDP 之间的趋势:优化
import plotly_express as px
gapminder = px.data.gapminder()
gapminder2007 = gapminder.query('year == 2007')
px.scatter(gapminder2007, x='gdpPercap', y='lifeExp')
若是你想经过大陆区分它们,你可使用 color
参数为你的点着色,由 px
负责设置默认颜色,设置图例等:
这里的每一点都是一个国家,因此也许咱们想要按国家人口来衡量这些点...... 没问题:这里也有一个参数来设置,它被称为 size
:
若是你好奇哪一个国家对应哪一个点? 能够添加一个 hover_name
,你能够轻松识别任何一点:只需将鼠标放在你感兴趣的点上便可! 事实上,即便没有 hover_name
,整个图表也是互动的:
也能够经过 facet_col ="continent"
来轻松划分各大洲,就像着色点同样容易,而且让咱们使用 x轴 对数(log_x)以便在咱们在图表中看的更清晰:
也许你不只仅对 2007年 感兴趣,并且你想看看这张图表是如何随着时间的推移而演变的。能够经过设置 animation_frame="year"
(以及 animation_group ="country"
来标识哪些圆与控制条中的年份匹配)来设置动画。
在这个最终版本中,让咱们在这里调整一些显示,由于像“gdpPercap” 这样的文本有点难看,即便它是咱们的数据框列的名称。咱们能够提供更漂亮的“标签” (labels),能够在整个图表、图例、标题轴和悬停(hovers)中应用。咱们还能够手动设置边界,以便动画在整个过程当中看起来更棒:
由于这是地理数据,咱们也能够将其表示为动画地图,所以这清楚地代表 Plotly Express 不只仅能够绘制散点图(不过这个数据集缺乏前苏联的数据)。
事实上,Plotly Express 支持三维散点图、三维线形图、极坐标和地图上三元坐标以及二维坐标。条形图(Bar)有二维笛卡尔和极坐标风格。
进行可视化时,你可使用单变量设置中的直方图(histograms)和箱形图(box)或小提琴图(violin plots),或双变量分布的密度等高线图(density contours)。大多数二维笛卡尔图接受连续或分类数据,并自动处理日期/时间数据。能够查看咱们的图库 (ref-3) 来了解每一个图表的例子。
数据探索的主要部分是理解数据集中值的分布,以及这些分布如何相互关联。Plotly Express 有许多功能来处理这些任务。
使用直方图(histograms),箱形图(box)或小提琴图(violin plots)可视化单变量分布:
直方图
箱形图
小提琴图
还能够建立联合分布图(marginal rugs),使用直方图,箱形图(box)或小提琴来显示双变量分布,也能够添加趋势线。Plotly Express 甚至能够帮助你在悬停框中添加线条公式和R²值! 它使用 statsmodels 进行普通最小二乘(OLS)回归或局部加权散点图平滑(LOWESS)。
在上面的一些图中你会注意到一些不错的色标。在 Plotly Express 中, px.colors 模块包含许多有用的色标和序列:定性的、序列型的、离散的、循环的以及全部你喜欢的开源包:ColorBrewer、cmocean 和 Carto 。咱们还提供了一些功能来制做可浏览的样本供你欣赏(ref-3):
定性的颜色序列:
众多内置顺序色标中的一部分:
咱们特别为咱们的交互式多维图表感到自豪,例如散点图矩阵(SPLOMS)、平行坐标和咱们称之为并行类别的并行集。经过这些,你能够在单个图中可视化整个数据集以进行数据探索。在你的Jupyter 笔记本中查看这些单行及其启用的交互:
散点图矩阵(SPLOM)容许你可视化多个连接的散点图:数据集中的每一个变量与其余变量的关系。数据集中的每一行都显示为每一个图中的一个点。你能够进行缩放、平移或选择操做,你会发现全部图都连接在一块儿!
平行坐标容许你同时显示3个以上的连续变量。dataframe 中的每一行都是一行。你能够拖动尺寸以从新排序它们并选择值范围之间的交叉点。
并行类别是并行坐标的分类模拟:使用它们可视化数据集中多组类别之间的关系。
Plotly Express 之于 Plotly.py 相似 Seaborn 之于 matplotlib:Plotly Express 是一个高级封装库,容许你快速建立图表,而后使用底层 API 和生态系统的强大功能进行修改。
对于Plotly 生态系统,这意味着一旦你使用 Plotly Express 建立了一个图形,你就可使用Themes,使用 FigureWidgets 进行命令性编辑,使用 Orca 将其导出为几乎任何文件格式,或者在咱们的 GUI JupyterLab 图表编辑器中编辑它 。
主题(Themes)容许你控制图形范围的设置,如边距、字体、背景颜色、刻度定位等。你可使用模板参数应用任何命名的主题或主题对象:
有三个内置的 Plotly 主题可使用, 分别是 plotly, plotlywhite 和 plotlydark。
px
输出继承自 Plotly.py 的 Figure
类 ExpressFigure
的对象,这意味着你可使用任何 Figure
的访问器和方法来改变 px生成的绘图。例如,你能够将 .update()
调用连接到 px
调用以更改图例设置并添加注释。 .update()
如今返回修改后的数字,因此你仍然能够在一个很长的 Python 语句中执行此操做:
在这里,在使用 Plotly Express 生成原始图形以后,咱们使用 Plotly.py 的 API 来更改一些图例设置并添加注释。
Dash 是 Plotly 的开源框架,用于构建具备 Plotly.py 图表的分析应用程序和仪表板。Plotly Express 产生的对象与 Dash 100%兼容,只需将它们直接传递到 dash_core_components.Graph
,以下所示: dcc.Graph(figure = px.scatter(...))
。这是一个很是简单的 50行 Dash 应用程序的示例,它使用 px 生成其中的图表:
这个 50 行的 Dash 应用程序使用 Plotly Express 生成用于浏览数据集的 UI 。
可视化数据有不少缘由:有时你想要提供一些想法或结果,而且你但愿对图表的每一个方面施加不少控制,有时你但愿快速查看两个变量之间的关系。这是交互与探索的范畴。
Plotly.py 已经发展成为一个很是强大的可视化交互工具:它可让你控制图形的几乎每一个方面,从图例的位置到刻度的长度。不幸的是,这种控制的代价是冗长的:有时可能须要多行 Python 代码才能用 Plotly.py 生成图表。
咱们使用 Plotly Express 的主要目标是使 Plotly.py 更容易用于探索和快速迭代。
咱们想要构建一个库,它作出了不一样的权衡:在可视化过程的早期牺牲一些控制措施来换取一个不那么详细的 API,容许你在一行 Python 代码中制做各类各样的图表。然而,正如咱们上面所示,该控件并无消失:你仍然可使用底层的 Plotly.py 的 API 来调整和优化用 Plotly Express 制做的图表。
支持这种简洁 API 的主要设计决策之一是全部 Plotly Express 的函数都接受“整洁”的 dataframe 做为输入。
每一个 Plotly Express 函数都体现了dataframe 中行与单个或分组标记的清晰映射,并具备图形启发的语法签名,可以让你直接映射这些标记的变量,如 x 或 y 位置、颜色、大小、 facet-column 甚至是 动画帧到数据框(dataframe)中的列。
当你键入 px.scatter(data,x ='col1',y='col2'
) 时,Plotly Express 会为数据框中的每一行建立一个小符号标记 - 这就是 px.scatter
的做用 - 并将 “col1” 映射到 x 位置(相似于 y 位置)。
这种方法的强大之处在于它以相同的方式处理全部可视化变量:你能够将数据框列映射到颜色,而后经过更改参数来改变你的想法并将其映射到大小或进行行分面(facet-row)。
接受整个整洁的 dataframe 的列名做为输入(而不是原始的 numpy
向量)也容许 px
为你节省大量的时间,由于它知道列的名称,它能够生成全部的 Plotly.py 配置用于标记图例、轴、悬停框、构面甚至动画帧。可是,如上所述,若是你的 dataframe 的列被笨拙地命名,你能够告诉 px
用每一个函数的 labels
参数替换更好的。
仅接受整洁输入所带来的最终优点是它更直接地支持快速迭代:你整理一次数据集,从那里可使用 px
建立数十种不一样类型的图表,包括在 SPLOM 中可视化多个维度 、使用平行坐标、在地图上绘制,在二维、三维极坐标或三维坐标中使用等,全部这些都不须要重塑你的数据!
咱们没有以权宜之计的名义牺牲控制的全部方面,咱们只关注你想要在数据可视化过程的探索阶段发挥的控制类型。你能够对大多数函数使用 category_orders
参数来告诉 px
你的分类数据“好”、“更好”、“最佳” 等具备重要的非字母顺序,而且它将用于分类轴、分面绘制 和图例的排序。
你可使用 color_discrete_map
(以及其余 * _map
参数)将特定颜色固定到特定数据值(若是这对你的示例有意义)。固然,你能够在任何地方重构 color_discrete_sequence
或 color_continuous_scale
(和其余 *_sequence
参数)。
在 API 级别,咱们在 px
中投入了大量的工做,以确保全部参数都被命名,以便在键入时最大限度地发现:全部 scatter
-相似的函数都以 scatter
开头(例如 scatter_polar
, scatter_ternary
)因此你能够经过自动补全来发现它们。
咱们选择拆分这些不一样的散点图函数,所以每一个散点图函数都会接受一组定制的关键字参数,特别是它们的坐标系。也就是说,共享坐标系的函数集(例如 scatter
, line
& bar
,或 scatter_polar
, line_polar
和 bar_polar
)也有相同的参数,以最大限度地方便学习。
咱们还花了不少精力来提出简短而富有表现力的名称,这些名称很好地映射到底层的 Plotly.py 属性,以便于在工做流程中稍后调整到交互的图表中。
最后,Plotly Express 做为一个新的 Python 可视化库,在 Plotly 生态系统下,将会迅速发展。因此不要犹豫,当即开始使用 Plotly Express 吧!
文章来源:
https://medium.com/@plotlygraphs/introducing-plotly-express-808df010143d
参考文献:
ref-1:
https://nbviewer.jupyter.org/github/plotly/plotly_express/blob/master/walkthrough.ipynb
ref-2:
https://mybinder.org/v2/gh/plotly/plotly_express/master?filepath=walkthrough.ipynb
ref-3:
https://plotly.github.io/plotly_express/