掌握数据分析思惟的第一步:如何思考问题?

在数据分析思惟当中,有一个很是重要的概念——反事实机器学习

文末有福利~
学习

也就是说咱们只能想象未发生的事情,而不能判定将来,在数据分析中叫作挖掘预测。所以正确的判断因果关系很是难,不管在工做仍是平常生活中。尤为是对于刚刚入门数据分析的人来讲,很容易陷入反事实的陷阱之中。3d

平常决策的因果关系

假设有这么一个场景:我昨天没有睡好,天又下雨,结果我开车出去撞了护栏。cdn

同时他又假设如下陈述均为事实:blog

  1. 我昨晚没睡好。
  2. 天下雨。
  3. 我在国内第一次开车。
  4. 北京交通标识不清楚。
  5. 当时正好一我的奔跑过来,让我惊恐。
  6. 我开车前喝了一杯酒。
  7. 我酒量不高。
  8. 那么这个事故的缘由是什么?都挺像的。

做者分析,为何你会以为“下雨”是一个缘由:事件

若是当天是天晴,那么天晴能不能成为事故的一个缘由呢?大部分人可能会认为天晴做为事故的一个缘由比较奇怪。深度学习

这多是由于咱们有个潜在假设,就是天晴是常态的,而下雨不是常态。但若是一个地方一天 24 小时,一年 365 天都在下雨,那么天晴就成了一个不正常的状态。在这种状况下,天晴反而让我不习惯,最后让我撞到护栏上去了。数据分析

因此咱们在说“下雨”是一个缘由时,背后其实已经在潜在假设正常状态是指天晴了。it

由此他提出一个观点:咱们在分析缘由时,潜在假设了一个正常的参考系io

就像划火柴着火,若是你问缘由是什么,人们会说是划火柴,而不会说是存在氧气。

认知科学家、心理学家 Steven Pinker (史蒂芬·平克) 在《思想本质》里解释说,咱们一般把易于识别的那个因素看成缘由

人们莫名其妙地将其中一个必要条件识别出来,以此做为一个事件的缘由,同时却将其余条件做为该事件发生的动因和辅助因素,即便这些条件与那个被识别出的缘由是同样不可或缺的。这些必要条件间的区别并不在于物理事件间的链接或它们所遵循的规律,而在于与某些其余事态的隐性对比。

平常生活中的因果判断,和咱们的认知,即大脑对于因果的理解有关系。

掌握数据分析思惟的第一步:如何思考问题?

认知理解的因果关系

咱们来考虑这么一个问题:

一辆有轨电车立刻要撞向 5 个绝不知情的铁路工人。假设此时你正站在交换机旁边,你能够将电车扳到另外一条轨道上,但那样会撞上另外一个绝不知情的铁路工人。你会扳动开关吗?

而后想象另外一个场景:

你站在一座大桥上俯瞰,你能够扔下重物让电车中止,以免撞向 5 个工人,而惟一的重物是你旁边的胖子。你会把他扔下去吗?

大多数人在第一种状况中选择会,而第二种状况选择不会。一样是牺牲 1 人救 5 人,为何会有这样的差别呢?

平克经过人类语言中动词的研究,解释说,人类的因果关系识别基于一个“力动态”的心智模型

在因果场景中,一个参与者被称为“主动力”:一个被设想为具备运动或静止内在倾向的实体。另外一个参与者被叫作“拮动力”:一个在主动力上施加外力的实体,这个外力一般是对主动力内在倾向的副作用力。

若是拮动力的力量大于主动力的内在倾向性,那么主动力从运动状态变为静止,或反之。若是拮动力的力量小于主动力的内在倾向性,那么主动力则保持原始状态

简单说就是,关于有因果相互做用的两个物体,咱们会假设一个是有内在运动或静止倾向的实体,而另外一个是加之在它身上的力量(因)。最后这个实体是否运动(果),与它内在倾向性和外在力量大小的差别决定。

就像下图,方块和椭圆分别表明有内在静止和运动倾向的主动力,箭头表明拮动力(注意有大小之分)。红色表明主动力最终运动,蓝色表明静止,那么有 4 种状态:

掌握数据分析思惟的第一步:如何思考问题?

研究中的因果关系

一、因果关系三层级

开篇咱们提到了“反事实”,这是《为何:关于因果关系的新科学》中的概念。这本书的做者 Judea Pearl (朱迪亚·珀尔)是图灵奖得主,计算机科学家和哲学家。

他指出,因果关系有 3 个层级。看下面这张图应该能够大概明白:

掌握数据分析思惟的第一步:如何思考问题?

如今的机器学习、深度学习还处在第一层。

第二层是干预,例如头疼,服用阿司匹林。是在干预一个变量(人体内阿司匹林的量),以影响另外一个变量(头疼的状态)。

最高层“反事实”,假如吃完阿司匹林,头不疼了。那是由于吃药引发的吗?仍是由于我听到了某个好消息?仍是由于我当时吃的食物?咱们须要能乘坐时光机回到过去,改变历史:假如我当时没有吃阿司匹林,会发生什么?

引用书里的一张图,美国诗人 Robert Frost (罗伯特·弗罗斯特)的做品《未选择的路》体现了反事实的概念:

二、相关不是因果

统计学里有个段子:一个国家的人均巧克力消费量和诺贝尔奖得主的人数之间存在正相关。

那咱们是否是要多吃巧克力呢?

事实多是,在富裕的西方国家,吃巧克力的人更多,在教育和科研上投入更多,于是产生更多诺奖得主。这个“富裕”,同时致使了更多的巧克力消费和更多的诺奖得主,是一个“混杂”因子。

混杂是一个一直以来困扰统计学家问题。朱迪亚·珀尔指出,统计学家老是高估或者低估混杂的影响

例如,在有些研究中,能看到一长串被控制的变量:收入、年龄、种族、宗教、身高、头发颜色、性取向、健身频率等等。而有的时候,又不肯意去控制一些变量。

混杂之因此在统计学中如此难解决,根据做者的观点,是由于它不是一个统计学概念,而是一个因果概念,属于因果关系之梯第二层。

可是在日常的工做中,仍是有一些方法可让咱们更好地区分相关与因果。在《缘由与结果的经济学》里,做者提出,判断因果仍是相关,能够先问 3 个问题:

  • 是否“纯属巧合”?
  • 是否存在第三变量?
  • 是否存在逆向因果关系?

正确理解因果关系,是思惟升级的利器。

关注个人公众号“数据分析不是个事儿”,回复“素材”,便可得到数据分析大礼包

相关文章
相关标签/搜索