技术人最不应忽视可视化数据分析！

时间 2019-11-10

标签技术不应忽视可视化数据分析繁體版

原文原文链接

阿里妹导读：在这个“人人都是数据分析师”的时代，阿里的同窗几乎都在参与数据的采集、加工与消费。数据可视化做为链接“加工——消费”的重要一环其质量相当重要。优秀的可视化能促成卓越洞见，糟糕的内容则让全部的努力失去意义。今天，阿里高级产品经理沉砂为咱们详细介绍数据可视化工具以及如何选择有效图表。

1、前言

我所在的阿里企业数据化管理领域，数据可视化水平良莠不齐，尤为是在汇报PPT和报表制做环节...今天，不深度探讨具体业务问题，仅给出一些可视化通用建议。服务器

经过文章你能够得到的建议：数据结构

挑选顺手的工具
加工正确的数据
选择合适的图表
一个实例

2、数据可视化工具

在这里首先我想说下数据可视化追求的三个目标：准确、清晰、优雅。符合这三项的图表被称为高效的数据可视化：工具

准确：精准地反馈数据的特征信息（既不遗漏也不冗余，不形成读者疏漏&误读细节）
清晰：获取图表特征信息的时间越短越好
优雅：美观（不是酷炫）、协调（相同场景的图表遵循统一规范）。性能

除此以外，这三项的重要性也有相对次序：准确>清晰>优雅，原则上咱们该尽可能往这三个方面靠拢。学习

问题来了，如何挑选顺手的工具帮助达成目标呢？测试

其实应当分状况来看，高效的数据可视化根据目的差别，大体分为两种类型（来自Cole Nussbaumer Knaflic的视频采访）：优化

解释型编码

已知目标数据的特征信息或者价值；
最大目的是传达解释给其余人自身的洞察；
追求极致的细腻表达。

探索型url

未知目标数据的特征信息或者价值；
最大目的是本身分析探索数据；
追求快速高效的数据交互。

你们在开始动手前，不妨先想一下本身是哪一种意图，一般状况下鱼和熊掌不可兼得，数据的灵活变换和细腻表达虽然不矛盾，但很难兼顾。这就促成了咱们可用的工具都有必定的偏向性，简单易上手的BI工具能够帮助咱们快速完成可视化，但有可能内容差强人意。一些专业的图表代码库理论上能够针对任何细节进行调整，可是效率和门槛存在明显劣势。spa

原则上工具没有孰优孰劣(事实上不少工具两方面都作得很好)，只是相对而言。笔者对常见种类的典型表明工具作了一个定性评估(我的意见)：

这里我将Excel与Tableau高亮了出来，Tableau做为业界最著名的BI软件，容易上手，可视化效果也很是棒，有助于你分析探索数据。而Excel是一款被大多数人严重低估的产品，它能够很方便实现各种图表微调，画出漂亮的数据图。

若是你没什么倾向性，Excel很适合做为你深刻研究的第一款数据可视化工具。

3、选择有效的图表

3.1 可视化流程

抛开一些专业理论，简单来说，咱们制做图表的步骤分为3步：

选择要传达的数据信息
寻找可视化方法
实现方法并完善细节

对于步骤1，主要考虑数据自己的信息与做者自身的洞察信息，列清楚这些信息，有助于你选择合适的可视化方法。下文我会讲述一些经常使用的方法论知识，但不是简单给出你要选择柱形图or饼图。至于具体的图表选用指南能够Google一下。

3.2 视觉编码

首先看两张图：

因为使用了视觉编码（颜色）传达信息，人们更容易理解原数据的特征了。

又好比普通的柱形图，咱们使用了柱子的“高度”和“相对位置”传达了两组数据信息，而柱形图每每比没进行编码的表格数据更容易理解。

咱们要来熟悉两个重要概念：“视觉编码”&“视觉通道”。若是把人类大脑看作是一个信息解码系统，那么可视化就是对信息(数据)的编码过程，信息经过视觉编码后，将内容经过眼睛传达至大脑，大脑解码信息并获取知识。

那么图形的视觉通道有这么多，该如何选择合适的视觉通道映射数据呢？这里须要经过数据的类型以及视觉通道的表现力进行综合判断，基础的学术理论有详细说明，这里我作一下简单介绍。

数据类型

通常咱们数据分为“类别型”、“有序型“和“数值型”三类，苹果、香蕉属于类别，几月几号属于有序，利润5000属于数值。在不少可视化商用工具的概念中，将”有序、类别型“的数据称为维度，”数值型“的数据称之为度量（指标）。

维度和度量所适用的视觉通道是有巨大差别的，例如颜色的色调适用于维度，但不适用于度量。选择正确的视觉通道，令信息传达更有效率。

数据通道的表现力

在浙大教授陈为的著做《数据可视化》（陈为沈则潜陶煜波. 数据可视化[M]. 电子工业出版社, 2013）中，使用4个指标做为评判一个通道的表现力标准：

精确性
可辨认性
可分离性
视觉突出

深度理解这些标准，有助于咱们明白一些可视化图表修改建议背后的深层次缘由。

这组测量数据采用科学的方法反映了一些制做经验的合理性，好比：

一些专业设计师很是反对使用饼图——面积&角度与人类的感知联系不是线性变化。
使用长度映射数据的柱形图一般是最佳可视化选择——长度与感知是线性变化。
常规商业统计图表永远不要使用3D效果——体积严重影响人类感知的精确性。

可分离性告诉咱们不能无限制的使用多种视觉通道，每增长一种通道来映射数据，都须要考量对已有编码方式的影响，尤为是尺寸（size）特别影响其余视觉通道的效果。

咱们结合柱形图作一个举例，下图的柱图使用了宽度(size)映射了一个度量字段数据，宽度影响了长度的有效力，这两个通道的同时使用，使得感知上有趋近面积这一通道，从而影响了总体图表的效果。

有一次一位业务的同窗问我为何不给柱图的柱子加“圆角”功能，其实也是这个缘由，过分的圆角会使长度损耗精确性，对于图表的总体表现力是破坏。

数据的视觉编码在学术上有一个冗长的表现力优先级列表，我在这里简化这些概念，只给出一份推荐使用的视觉通道，理论上这些通道之间均可以组合使用，请根据实际状况挑选最佳方案。

另一个行之有效的实践方式是：不要从头构建可视化的方案，请在最基础的统计图类型之上选择追加视觉通道，而后不断尝试效果。不是什么图表均可以用全部通道的，例如行政地图就没有长度通道。

3.3 设计原则

设计图表，好的视觉编码是最重要的点，除此以外，对数据的筛选也是一项挑战，过大的信息量会使图表显得混乱，形成认知负荷。对于JavaScript构建的可视化内容，咱们还须要关注数据交互。

认知负荷

通常的可视化文章会用墨水比这一项指标来衡量负荷的轻重。设计的不合理，会给受众过分、冗余或者毫无心义的信息传达。

首先咱们要关注的是是否呈现了过多数据、滥用了视觉通道。

其次，咱们能够利用格式塔原理精简或者优化咱们的图表元素，减轻认知负荷。

完整的原理一共有8项内容，这里我主要介绍最为重要的临近原则、类似原则&闭合原则。

临近原则

人们倾向物理上相近的元素为一个总体。

我简单打出一行点：

... ........ .......

你会很天然地认为这是三个群体。利用这个心理学现象，咱们构建了典型的“分组柱形图”

也能够用于引导用户阅读表格数据(来自Cole Nussbaumer Knaflic的blog)：

类似原则

人们倾向将颜色、大小或者形状等属性相似的对象看做一个总体（或者具有关联性）。

这种心理学现象，叠加颜色色调的处理，很容易促成视觉突出，使咱们可以快速注意到被处理的目标数据。上文视觉编码数“5”的举例，即是类似原则的一个案例。

我的实践感受颜色是应用类似原理最好的视觉通道，咱们可以经过“图例”将图例标注信息与画图区域的内容对应起来，简单来讲，也是这一心理学现象在起做用。

咱们能够更进一步使用这一效应来帮助用户解读图表

闭合原则

人们倾向物理上被包围在一块儿的元素为一个群体。

闭合原则常常被使用在标注注释上，使用少许的“水墨”便能将目标区域的视觉突出起来，咱们拿上面类似原则的案例作进一步加工，来讲明闭合原则的功效。

灵活利用格式塔原理与视觉编码特性，是数据可视化在具体图表之下的更为重要的知识技巧。篇幅缘由，再也不一一列举。

当咱们看到一副图表，凭借本身朴素的美学经验指出图表缺陷时，不妨深刻思考下，这个缺陷是违反了哪一条心理学原理，仍是水墨比（信噪比）不平衡。

3.4 经验之谈

可视化的实践经验太多太多，我想再着重强调一下位置和颜色的巨大影响。

位置

位置是一个丰富的概念，图表一切的元素都处于“位置”之中，你不得不谨慎对待元素的位置属性。不管是轴标记位置、文本说明位置、标题位置、图例位置仍是图形自己的相对位置。摆正它们，可使图表不显得信息杂乱，能够帮助用户更容易理解你想传达的信息。

对齐：心理学的“连续原则”使得对齐创造一条看不见的路径，引导人们更容易解读信息，任什么时候候都要注意对齐的使用。
排序：任什么时候候，咱们都须要对数据排序。柱图的柱子历来都不应是被随意摆放的，排序是对元素的位置属性最重要的应用。没有规律的数据表达会给用户带来额外的解读负担。
参照：位置都是相对的，若是咱们想准确解读数据的位置，就必定须要一个参照系。这个参照系能够是X轴Y轴，也能够是两个点或者柱子之间的相对参照，总之你得有一个。

颜色

颜色是最重要也是最容易被滥用的视觉编码方式，颜色具备色调、饱和度、明度的三重变化，同时颜色的变化还牵引着人类的情绪，因此颜色的使用须要被数据可视化制做者认真考虑。在这里再补充一些实践上的心得：

尽可能避免同时使用红色&绿色，色盲的同窗没法分辨他们，这也是为何大多数图表库和软件的默认颜色的第一序列是蓝色；
维度数据使用色调，度量（指标）数据使用饱和度和明度；
在保证信息完整传达的前提下，使用的颜色越少越好；
颜色在上下文须要保持统一步调，例如以前的图用“绿色”表明香港，下面的图就不该该使用“黄色”或者“红色”，“预测数据”使用绿色，“实际数据”使用蓝色，保持秩序，减轻用户认知负荷；
颜色能比其余视觉通道更能引发注意，也就意味着更容易令人疲劳。确保你使用的颜色是“有序”的，五彩斑斓、明暗跳跃的色彩序列并不可取；
设计以前，能够参照一些品牌设计手册，通常被叫作visual manual。阿里几乎每一个BU都会有相似的材料，能够找大家的UED同窗要。使用品牌色更容易得到目标人群的青睐。可是也不是全部的品牌色都适用，使用前应当思考下效果。
注意你使用颜色的场合，事实上因为各国文化和宗教信仰的不一样，相同色彩在不一样人群中的情感性质很不同。好比中国人喜欢红色，可是不见得西方国家喜欢。还有医院和金融业，也是典型的颜色敏感行业，给炒股的老板看图表不要用绿色做为主色调......
放弃酷炫，咱们看数据不是为了酷炫。

统计图表选择推荐

这个网上资料一抓一大把，选择图表前，其实更多的是要想清楚你的数据想传达的目的。数据分析纷纷咋咋，总结起来，不外乎4个目的：对比、聚焦、概括、演绎。基于这些初始目的出发，咱们再选择实例化它。

下图是一张广为流传的图表建议：

英国的金融时报杂志也出过一版建议：

下载

技术人最不应忽视的数据可视化分析中，英国的金融时报杂志也出过的建议原图下载地址（放大再放大就能看清字啦[调皮]）：
https://alitech-public.oss-cn-beijing.aliyuncs.com/1567064473032/shuju%20fenxi.png

4、准备数据

4.1 为可视化调整数据结构

通常来说，制做数据图表前，或多或少有一系列数据的采集加工环节，以集团开发同窗熟悉的ODPS为例，简单来说以下图流程所示：

多数数据仓库为了知足必定的设计规范、维护能力与健壮性，不会容许数仓上层应用作定制化侵入设计，而各种应用所须要的数据格式不尽相同，在可视化领域，为最后的图表制做，对数据进行一些调整很是常见，特别是使用BI软件进行制图，包括不只限于如下调整：

1.行列转换

好比为了进行数据对比分析的簇状柱图，不一样工具配合交互时，有不一样的设置方法。须要对表中的行列数据进行灵活转换，以符合软件要求。

2.可读性转换

原表数据中，极可能只有"ID"、"XXX编码"、英文内容等特征数据，为了咱们最后的可视化加工效果，为了图表易于解读，咱们须要更多的额外数据进行关联处理，好比：

找到这张“事实表”的关联“维表”，拿到ID背后的中文名称、姓名等信息；
将英文翻译成对应中文，好比将male与female转换成“男”跟“女”；
找到“短名称”、“昵称”等易于识别的数据；
从时间数据字段中转换出“季度”、“财年”、“周”、“交易日”等契合业务场景的时间类型字段。

3.针对业务场景的转换

此类转换须要结合必定的具体场景，通常来说，原始表只提供原始数据，具体场景提供数据转换规则，典型的例如：

将“年龄”分段，原始表只记录用户的生日，后期加工成“18~24岁”、“25~30岁”等范围字段值，这类加工有助于用户解读和构建可视化内容。
新顾客、老顾客。“新”与“老”都是随着时间推移的相对概念，不太会存储在数仓的原始数据表中，用户须要根据当前分析的时间窗口，自助加工出新老顾客的定义字段。

4.2 剔除异常数据

原始数据中，难免混入异常数据，咱们把错误数据(脏数据、测试数据)和不合理数据统称为异常数据。这些数据不剔除，会直接影响可视化最终的展示效果，从而影响分析效果和决策效能。咱们在制做图表前，必定要作这一环的处理。

不合理数据也是相对于具体的分析场景而言的，例如，咱们为衡量电话营销人员的表现设定了一个数据指标——平均每周成功3单推销即为优秀员工，这里就须要结合场景将“实习期员工”剔除，或者说，将工做年限太短的样本数据剔除。

4.3 对特殊值作精细化处理

为了可视化效果，咱们须要关注那些含义不明的数据和“极端数据”，这些数据的存在有时候会直接影响咱们的内容展示。

空、null、0

这3个数据值是典型的“含义不明“数据，有些场景下，他们表达的意思相同，有些则表明了大相径庭的信息。我拿”考试“做为一个case来比喻这三者的区别：

0：小明参加了语文考试，得了0分；
空：小明没参加语文考试；
null：小明没有语文这门考试。

在进行可视化表达时，必定要注意对数据的准确表达。

极端数据

极端数据指一种样本数据极端分布不均匀的状况，好比“100条某产品的销量分布，1条记录10W，其他99条记录在0~1000之间，“如实”反应数据的图表将很难看出大部分样本数据的特征信息。须要结合业务场景，作应对处理（好比剔除&“矮化”极端数据，并作对应的文本解释）

4.4 汇聚数据到合理程度

在使用BI工具进行可视化展现的时候，须要注意原始数据的数据量大小。一般软件服务所在的服务器性能不是无限的，合适大小的数据量有助于取得交互展现的最佳表现。

当原始数据过大，咱们能够根据实际场景，剔除某些字段，对数据进行汇聚。

另外，大部分工具都支持“派生字段”，尽可能在“物化”或者“实体表”阶段固化这些派生数据，也有助于性能表现。对于BI软件须要计算的派生数据而言，计算发生的环节决定其性能表现：

计算在加速数据环节 > 计算下放计算引擎 > 内存计算 > 发生内外存交换的计算

5、一个实践案例

本文粗浅介绍了一些数据可视化的技巧，可是远远谈不上完整。要作到“可视化最佳实践”还须要大量知识补充，而且加以灵活应用。

在这里介绍一个可视化图表优化的优秀案例，原始材料来自Cole Nussbaumer的英文blog，有兴趣的同窗能够翻翻她的博客，会获益良多。一样D3做者Mike Bostock也产出了大量高质量的可视化内容，很是值得借鉴。

案例：对资本预算数据的可视化改进

原始图表

咋一看这图也没啥错，可是博客做者看到了一些改进点：

Y轴标签的可读性
X轴未区分过去与将来的区别

其实还有其余隐藏改进信息未指出：

上文讲述过视觉通道会相互影响有效性，这里图例中的小正方形尺寸太小，影响了颜色的解读，这就使得蓝色的major projects和浅蓝色的proposed allowance难以区分。（试想一下你在日常遇到的更极端的图例解读困境）；
轴的黑色标签的颜色饱和度过高，影响了图自己的视觉突出。（稍微浅色一点的label更容易将用户引导相当注数据自己）；
缺乏度量数听说明。

一、改进版本一