统计数字是如何歪曲事实的

统计数字是如何歪曲事实的

想提一下这个话题是由于我在 Bilibili 看到这个视频html

做者的主要目的是想表达中国的肉类消费数量惊人,可是这个可视化作的真的太有心机了。微信

第一张图中高耸如云的那个柱子是中国,下面矮的几乎看不到的是其它国家。这么一看感受全世界的肉都被中国吃了。可是仔细看数字,做者给出的中国的数字是 54812000,欧盟的数字是 20613000。中国消费的肉类大概是欧盟的两倍。也就是说中国这个柱子的左边应该有一个差很少一半高的欧盟的柱子。可是最后的效果里欧盟的柱子几乎看不见了。做者故意耍个心机,不看数据还真觉得全世界的猪都被中国吃了呢...(中国的猪肉消费量差很少占全世界的一半)编辑器

原本应该客观反应现状的数据,最后却误导人产生错误的理解、扭曲真实情况,在现实生活中真的挺常见的。ide

平均数、中位数、众数?

每次神秘的有关部门发布平均薪资、平均年收入等等,我都是被平均的那一个😭。好比前两天看网上的数据显示杭州平均月薪9484,好多人(包括我)都在吐槽又被平均了,也有不少人由于工资水平不到平均值而焦虑。网站

但是仔细一想,这个平均值真的有意义吗?spa

若是工资的分布是正态的,那么有 50%的人没达到这个水平,做为一个上进的人,焦虑一下何尝不可。可是根据28定律:20%的人掌握了80%的财富。没到平均水平的人远超50%。这样一个平均值,对个体几乎没有意义。3d

要想知道个体的收入在整个地区的排名应该用百分位数,这个数字对个体仍是有点用处的。有关部门发布一个没啥指导意义的平均数,除了让部分人误解本身是落后的那一半外,有别的用处吗?cdn

刻意隐藏样本的分布状况,误导数据阅读者脑补不正确的数据分布状况,是用数据歪曲事实的经常使用手段之一。视频

平均数真的平均吗?

实际上,我对杭州平均月薪9484也是持怀疑态度的。由于我看到数据来源于某招聘网站,而据我了解,这个网站的招聘岗位可能是互联网企业。众所周知,互联网的薪资比较高。从这一点看,如今发布的杭州平均月薪9484也仅能说明在这个网站上招聘的企业平均月薪9484,并不能说明杭州的平均月薪就是9484。htm

刻意忽略掉样本的来源信息,误导数据阅读者错误理解数据覆盖范围,是用数据歪曲事实的经常使用手段之二。

我作的图没问题,是你理解有问题

上面这个图初看彷佛右边的数据是左边的3倍。仔细一看不过1.18倍。更气人的是你还不能吐槽图作错了,由于它的 y 轴起点不是 0。

更多欺骗性图表能够看👉7种最多见的数据可视化错误

刻意破坏公认制图方式,误导数据阅读者错误理解图表信息,是用数据歪曲事实的经常使用手段之三。

给你平均值,却不给你偏差范围

某公司结合多年数据发现绩效分 4.0 是平均水平。U2F 这个月拿了 3.7。它会是绩效差的那我的吗?单从上面的数据看,3.7 的绩效分没有达到平均水平 4.0。U2F 的绩效差了。

但是若是我告诉你,3.5 ~ 4.5 是平均水平范围,他仍是绩效差的那我的吗?

在一些判断标准中,只给固定的数字而刻意隐藏范围,让数据使用者产生误判,是用数据歪曲事实的经常使用手段之三。

使人迷惑的百分比

若是数据使用者够仔细,仍能够很快发现前面各类数据的错漏。最有迷惑性的还得是百分比。

好比我告诉你今天我发的这篇文章写的很认真,为了完成它多花了150% 的时间。你是否以为我花了不少时间来写这篇文章吗?若是我告诉你其实我写一篇文章就只要花30分钟,150%也不过45分钟呢?另外多花了150%也容易让人误解,你能够认为是原数据的1。5倍,也能够理解为原数据的2.5倍。

此外,若是和我写的最快的一次比较,即便理解为原数据的250%,也不过是10分钟罢了。

抛出比较性的数字却不给出比较的基数,让数据使用者不自觉的带入本身指望的比较基数,是用数据歪曲事实的经常使用手段之四。

如何避免被数据欺骗?

数据的加工流程能够抽象为:

  • 数据来源
  • 数据处理
  • 数据呈现

按数据加工流程一步步回溯:

  • 数据是怎么来的?覆盖的范围够大够合理吗?
  • 数据是被谁处理的?这份数据的结论是否对他有影响?
  • 数据是如何呈现的,关键的数字都有给出吗?

这样,能够很快的发现采集的数据样本是否具备表明性,在数据处理的过程当中是否会出现一些认为的倾向性,在数据呈现的图表中是否有可能让人产生误解。

相关文章
相关标签/搜索