关于对比型数据与分布型数据的图表可视化

对比型数据

对比型数据:对比两组或两组以上数据的差异
常用图表及其视觉通道:
高度差异:柱形图
宽度差异:条形图
面积差异:面积图/气泡图
字号差异:单词云图
形状差异:雷达图/星状图

柱状图

分类

柱状图可大概分为单一柱状图,重叠型柱状图,并列柱状图和堆叠柱状图4种。

适用场景

  • 单一柱状图

适合单一类别的数据对比,也适合表示离散型时序数据的趋势

  • 重叠型柱状图

适合两个类别的数据对比

  • 并列柱状图

适合两个或三个数据类别的数据,若数据类别超出3个,则不建议使用

  • 堆叠柱状图

适合既要对比总体的数据,又要对比总体各构成项的数据,但是总构成项一般不要大于5个,如果超过5个,可按占总体的比例进行归类,展示Top5,其余归入“其他”

注意事项

  • 需要注意柱子间的间隔要与柱子的宽度要有明显的区别,如果间隔的宽度和柱形宽度相近,视觉上就会产生振动效应,给人感觉柱形和间隔的角色发生了互换
  • 需要注意柱子不能过于密集,如果柱子间隔宽度过小或者柱形图的柱子数量过多,会产生密集感,不易于使用者分辨数据
  • 柱子的宽度不能过宽,会显得柱子肥大,不易于使用者从左至右观察数据总体变化趋势

条形图

条形图在大部分情况下,是可以互换的,但有些情况下,条形图会比柱形图更好的展示数据:

  • 条形图对比柱形图而言,可以展示更多的数据,但一般不要超过30条
  • 当分类项的文本过长时,柱形图的文本需要进行旋转才能不重叠,不利于阅读,而条形图就没有这个缺点。

面积图

面积图,是折线图的一种延伸,其实就是折线图和折线图投影到X轴的直线所围成的面积

分类

按对比方式的不同,面积图可以分为重叠对比型面积图和堆砌对比型面积图

适用场景

  • 重叠对比型面积图
    所有系列的面积基线都是X轴,系列之间有重叠和覆盖的关系。适用于分析各个系列随时间变化趋势的场景
  • 堆砌对比型面积图
    只有底层系列的面积基线和X轴重合,其他系列都是堆砌在它们下面一组的数据上面。适用于既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化趋势的场景

气泡图

气泡图和散点图的区别是,气泡图一般用于三维数据的可视化,而散点图适用于二维数据的可视化。气泡图除了与散点图一样反映坐标点X,Y的相关关系,还可以将一个维度的数据映射到气泡的面积大小或者颜色深浅上。

分类-适用场景

如果需要展示三维数据信息,可使用气泡图;而如果需要展示二维数据信息,可使用散点图。当需要展示多个系列的数据时,可以使用多种颜色表示不同系列

注意事项

  • 在气泡图中,需要确定使用圆的面积来表示数据大小,如果使用半径或者直径,则会出现使用者通过气泡大小获取两个数据大小关系信息时,产生错误。例如A=2B,则A的气泡面积应该时B的两倍,如果A气泡的半径是B气泡半径的两倍,则A气泡面积是B气泡面积的4倍,这会对使用者比较A,B大小时,产生传递错误信息的效果。
  • 需要注意气泡图的图形透明度,因为气泡图图形可能会有覆盖的情况,所以需要调整图形透明度防止图形的相互覆盖。(如果散点图有这样的情况,也需要调整圆点的透明度)

单词云图

单词云图,通过单词的字号大小来反映词频的大小,字号越大,词频越高。通常,为了达到贴合主体的特征,以及视觉美观的目的,用户可以自定义单词云的配色方案,背景形状等设计层面的个性化。

适用场景

单词云图,主要是用于文本数据中词频数据的可视化。

注意事项

单次云图只适合表示一组文本数据的对比,不适合多个类别的文本数据之间的比较。

雷达图/星状图

分类-适用场景

  • 雷达图

雷达图是一体多维的数据,即可视化的对象是一个主题,只是这个主体具有多个维度上的数据特征。对比的是,同一个主体,在不同维度上的数值,可以看出主体在不同维度上的偏向;

  • 星状图

星状图是多体多维的数据,即可视化的对象是多个主体,且多个主体维度相同,且单个主体具有多个维度上的数据特征。对比的是,多个主体,在同一纬度上的数值,可以看出不同主体之间的差异和侧重点。

简单理解就是,雷达图可以视为是星状图中的一行记录。

分布型数据

研究数据分布的集中趋势,离散程度,偏态和峰度等

直方图

分类-适用场景

我们常用的直方图,主要有频数直方图和频率直方图,它们都是用于展示离散型分组数据的分布情况。

绘制直方图的步骤

首先,对数据进行分组,然后统计每个分组内数据的频数和频率。
其次,在平面直角坐标系中,横轴标出每个组数据的下限和上限。
最后,纵轴表示频数或频率,每个矩形的高代表对应的频数或频率。

:在频数分布直方图中,频数乘以组距得出每个分组的数量,可以看出频数分布直方图是用面积来表示频数的,和柱状图(条形图)用长方形的高度(宽度)表示数量是有本质性区别的。

茎叶图

茎叶图一般适合数据为整数的数据的可视化
茎叶图的原理是,将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。
茎叶图使用较少,因为一般而言,可以用条形图或其他图表替代使用,所以此处不详细展开。

箱线图

箱线图可以展示一组数据的下四分位数Q1,中位数,上四分位数Q3,最大值和最小值。

具体说明

  • 箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
  • 箱子的上下限,分别是数据的上四分位数Q3和下四分位数Q1,这代表箱体部分包含了数据集中50%的数据,因此,箱子的宽度(四分位距=Q3-Q1)在一定程度上反映了数据的离散程度。
  • 在箱子的上方和下方,又各有一条线,有时候代表着最大最小值,有时候代表的是上下内限。如果有点位于内限之外,理解成异常值就好。

适用场景

  • 对比多组数据的分布情况
  • 检测数据中的异常值或离群点

概率密度图

用于描述连续型随机变量其分布规律。通过图形化的方式,我们可以清楚的看到随机变量分布的对称性情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量。

气泡图/散点图

可以参照对比型数据中相应介绍,此处不详细描述

热力图

通过密度函数进行可视化,用于表示地图中点的密度的热图使用颜色的深浅来表示数据密度的大小,通过查看颜色的“深浅”获取数据密度的分布。
目前热力图在地图,网页分析,业务数据分析等领域有比较广泛的应用。

地图

当数据带有地理型信息属性时,首选的可视化图表为地图。地图可表达整体数据在各区域的分布情况以及具体到某个地理区域的数据情况。

最后

我们首先需要确定我们需要使用数据表达的目的,有了目的,再看数据的类型,特征及数据间的相互关系,有了这些准备,我们再根据这些信息去选择合适的图表,图表的选择是为更好更准确的传达数据背后的信息而服务的。

实践

  • 实践1
    在这里插入图片描述

思路1:目的是对比三家评分,所以选择柱形图,另外有4个系列的评分,所以选择并列柱形图
思路2:目的是比较三个主体的不同维度上的数值大小,可以选择星型图

并列柱形图:

在这里插入图片描述

星型图:
在这里插入图片描述

  • 实践2
    在这里插入图片描述

思路:目的是看分布,而且需要显示三个维度的数据,选择气泡图。选择月度成本和月度收入作为X,Y轴,评分以颜色深浅作为视觉通道。
在这里插入图片描述