三个数据分析里最难攻破的“悖论”,每个都使人费解

跟数据打的交道越多,就越可能对数据产生绝对的信赖感,但其实在实际业务中,数据每每会“说谎”,今天给你们介绍三个数据分析中常见的悖论:spa

一、辛普森悖论

辛普森悖论是数据分析中最多见的悖论之一,举个最实际的例子来讲:对象

鸭堡某学期期末考试,考数学、物理、化学三科,A的数学比B高2分,物理比B高15分,化学比C高3分,请问A的总分是否比B高?blog

不少人会说,这不是废话么,问题太简单了,固然是A的总分比B高了!数据分析

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

实际上极可能A的总成绩低于B,别急着惊讶,咱们不妨再看一个例子:数学

不少人都爱看NBA比赛,最近几年的骑勇大战,使得詹姆斯和库里在球迷心目中的印象很是深,有一场骑勇大战,詹姆斯和库里的两分球与三分球命中率以下表所示:class

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

其中:im

两分球命中率 = 两分球命中数 / 两分球出手数 * 100%d3

三分球命中率 = 三分球命中数 / 三分球出手数 * 100%统计

那么请问本场比赛,詹姆斯的投篮命中率,是否低于库里?数据

投篮命中率 = (两分球命中数 + 三分球命中数) / (两分球出手数 + 三分球出手数) * 100%

不少人也会说,这不是跟上面期末考试那个题同样简单嘛,这还用说嘛,确定是詹姆斯的投篮命中率低于库里呀!咱们把细项的数据拉出来看,确实是这样的:

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

可是,这真的是废话么?咱们再来看另外一场比赛这两位兄弟的表现吧:

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

这一场比赛,詹姆斯和库里谁的投篮命中率高呢?此次你若是还说这是废话,固然是库里的投篮命中率高了,那这回你可就没这么幸运了,让咱们看看细项数据吧:

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

是的,你没有看错,詹姆斯的两分球命中率也低于库里,三分球命中率也低于库里,可是汇总起来看,詹姆斯的投篮命中率是要高于库里的!

问题来了,这是怎么回事呢?这不符合常理啊!

这个“不符合常理”的现象,在数据分析领域中会时不时遇到的,而且在业内有个专门的术语:辛普森悖论(Simpson's paradox)

具体来讲,就是在进行分组研究的时候,有时在每一个组比较时都占优点的一方,在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论。

现实中的不少数据,经过辛普森悖论,展示出引导性的错误结论。好比现实中的多干多错,少干少错,不干不错。

一我的常常犯错并不能证实他就比其余更少犯错的人能力低下,有多是他从事更加复杂,出错率更高的工做的时间占比更大。

二、罗素悖论

罗素悖论属于数理统计学中永远没法逃避的一个悖论,这个悖论简约、美丽、诡异,甚至致使了第三次数学危机的解决。

罗素悖论的准确表达应该是:

若是存在一个集合是由全部一切不属于自身的集合组成的,也就是A={x | x∉ x },那么A包含于A是否成立?若是成立,则不符合x不属于A;而若是A不包含于A,则符合x不属于A。

罗素怕这个悖论不少人看不懂,因而给出了一个通俗版本:

假如某个城市的全部人,都在一位理发师那里理发,而这位理发师忽然说:“我只为本城市中,不给本身刮脸的人刮脸!”因而,其余人对理发师说:那么你给本身刮脸吗?

假若他不给本身刮脸,那么他属于“不给本身刮脸的人”,按照他的说法他就要给本身刮脸;假若他给本身刮脸,他又属于“给本身刮脸的人”,按照他的说法就不应给本身刮脸。

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

三、伯克森悖论

将不一样组别的数据合并时,会致使各组本来表现出来的某种规律消失,当这种状况发生时,合并以后呈现出的新规律甚至可能与每组的本来的规律相反。

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

举个例子,某种治疗手段在不一样的组别里对患者的身体恢复是有害的,可是将全部组别的数据合并起来看,咱们却会发现它居然对患者身体的恢复是有帮助的。

它是怎么发生的?

当组成各组的成分差异较大的时候,就可能出现上述现象。

如,对病人的数量进行筛选,使得两组试验中病人的组成差异很大(老人、小孩、成人的比例有很大的差异)时,将数据简单的合并以后就会得出这样的结论:有害的治疗变成了有益的治疗。

假设有一个双盲试验(在双盲试验中,受试验的对象及研究人员并不知道哪些对象属于对照组,哪些属于实验组),将患者分红两组,每组有120人,可是两组中患者的年龄结构有很大的差别(第一组分为10人、20人、30人、60人,第二组分为60人、30人、20人、10人)。第一组的患者将接受治疗,而第二组的患者不进行治疗。

整体结果代表,治疗对患者是有益的,接受治疗的患者的身体恢复率大于没有接受治疗的患者。

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

然而,当你深刻研究两组中各个患者群体时,你会发如今全部的患者群体中, 没有接受治疗的患者身体恢复率提升了。

三个数据分析里最难攻破的“悖论”,每个都使人费解

 

咱们注意到,每组中不一样年龄的患者人数是不一样的,甚至是差异很大的,这就是咱们得出错误结果的缘由。在这种状况下, 若是简单的将两组数据合并,就容易得出错误的结论。

三个数据分析里最难攻破的“悖论”,每个都使人费解