数据可视化中颜色有三种应用场景:(i)用颜色来区分数据集;(ii)用颜色来表明数据集;(iii)用颜色来突出数据。如何选择并使用颜色在这三种状况下各有不一样。ui
咱们常用颜色做为区分不具有内在顺序关系的离散项目或分组的手段,例如地图上不一样的国家,或者某个产品的不一样制造商,此时,咱们使用定性的颜色比例尺。这种比例尺包括一组有限的颜色集,彼此截然分明,而又异曲同工(distinct from each other while also being equivalent to each other)。后者要求任何一个颜色不该特别突出,同时颜色之间不能有明显顺序关系——就像一组递进变亮的颜色,此时颜色所表明的项目也会被认为有顺序关系,而根据定义,这些项目应该是无序的。rest
幸运的是,咱们能够很容易地在社区中获取理想的定性颜色集。图 4.1 列出了三种颜色集。值得一提的是,ColorBrewer 项目提供了一系列好看的颜色集,包括从极浅到极深的色系。cdn
颜色集示例。Okabe 会做为本书默认颜色集,ColorBrewer Dark2 和 ggplot2 hue 也应用普遍。htm
图 4.2 给出了如何应用颜色集的示范,图上展现了 2000 年到 2010 年美国各州的人口增加率。我已经根据增加率大小对各州进行了排序,而后基于地理位置不一样添加颜色。从图上咱们能够看出,同一个区域的州有着较为接近的人口增加率。值得一提是,西部和南部城市相对于中西部和东北部有着更快的人口增加率。blog
图 4.2: 美国各州人口增加率排序
颜色也能够用来表明数据集,好比收入、温度和速度。此时,咱们应该选择连续型颜色比例尺。连续型颜色比例尺包含了一组颜色,颜色之间可以明确传递出(i)数据之间的大小关系,(ii)数据之间的距离。第二点意味着颜色比例尺在完整区域内须要均匀分布。get
连续型比例尺能够基于色相(hue)分布(从深蓝色到浅蓝色),或者是多色相分布(深红色到浅黄色)(图 4.3)。多色相分布通常遵循天然界的颜色渐变关系,例如深红色、绿色或蓝色,过渡到浅黄色,或者深紫色到浅绿色。相反,若是是深黄色到浅蓝色,看起来就不太天然了,不太适合使用。产品
图 4.3:连续型颜色比例尺。ColorBrewer Blues 是一个单色变化的比例尺(从深蓝到浅蓝)。Heat 和 Viridis 则是多色相比例尺,分别是从深红色到浅黄色,以及从深蓝色到绿色再到浅黄色。it
连续型颜色分布尤为适合跟地理分布相关的数据集。图 4.4 中咱们展现了一副用颜色来表明数据的地图分布图。这种地图术语叫作 choropleths。图上展现了得克萨斯州各县年收入的中位数。
图 4.4:德克萨斯州各县年收入年收入的中位数。颜色从浅到深,分别表明该县年收入中位数从低到高。
某些状况下,咱们须要将数据集的误差可视化为相对于一个中性点两个方向的分布。最直接的例子就是一组具备正数和负数的数据集。若是咱们用颜色来区分这些数据,那么咱们一眼就能看出哪些是正值或负值,以及离中心点的方向和偏移量。这时候适用的颜色比例尺叫作分散型颜色比例尺(diverging color scale)。分散型颜色比例尺咱们能够理解为两段连续型颜色比例尺经过一个中心点来链接,中心点一般是浅色的(图 4.5)。分散比例尺须要平衡两端的颜色分布,从中心点到两侧深色位置要大体相同。不然,两侧的数据集只能和中心点作比较。
图 4.5:分散型颜色比例尺。分散型颜色比例尺由两段连续型颜色比例尺链接而成,常见的分散型比例尺包括从棕色到蓝绿色,从粉色到黄绿色,从蓝色到红色。
图 4.6 展现了分散型颜色比例尺的应用,图上展现了德州各县白人占比的分布。虽然百分比确定是一个整数,可是咱们能够基于 50% 做为一个中心点。高于 50% 则说明白人占多数,低于 50% 则相反。可视化清楚地显示了哪些县白人占多数或少数,或者白人和其余有色人种大体相同。
图 4.6:德州各县白人分布图。
颜色也能够高亮数据集中的特定元素。数据集中可能存在某些特殊的类别或值,其中包含了咱们所要讲述故事的关键信息。咱们能够向读者突出相关的图形元素来加强故事。一个简单的作法是,将相关图形元素用一种或一组颜色着色,让其从其余数据集中脱颖而出(stand out against the rest)。咱们能够用强调色比例尺(accent color scale)来实现。强调色比例尺包含了一组柔色色系,和一组更强、更深、更加饱和的色系(图 4.7)。
图 4.7:强调色比例尺的示例。包含了 4 个基础颜色和 3 个强调颜色。强调色有几种生成来源:从已有的颜色色系中淡化某些颜色,并强化另外颜色( Okabe Ito Accent);基于灰色色系生成强调色(grays with accents);直接使用现有的强调色系(ColorBrewer)。
图 4.8 展现了一样的数据选择不一样颜色就能讲述不一样故事的示例。图 4.2 展现了美国各州人口增加率的分布,这里咱们选择 Texas 和 Louisiana,这两个州都在南部,而且彼此相邻,可是 Texas 增加率排在前五,而 Louisiana 则是倒数第三低。
图 4.8:Texas 和 Louisiana 相邻城市,可是人口增加率却大相径庭。
使用强调色时,关键的一点是基础颜色不该该喧宾夺主。看看图 4.8 上基础颜色是如此的低调,这样才能突出强调色的做用。一个常常容易遇到的错误就在于基础色太过丰富,分散了读者的注意力。不过仍然有一个简单的补救措施,只须要删除图中全部元素的颜色,但保留须要突出显示的元素。图 4.9 给出了一个示例。
图 4.9:田径运动员在全部流行运动项目中最为短小精瘦。