女士品茶 | The Lady Tasting Tea | 统计学史

The Lady Tasting Tea - How Statistics Revolutionized Science in the Twentieth Century 算法

本书只讨论了20世纪这100年间的统计大变革。框架

通常的书读读就行,惟独这本书须要慢慢品读,让统计的思想深刻骨髓。函数

这本书不适合空读,而要结合本身对统计学的理解来读,遇到不懂的时候不要跳过,停下来仔细查阅相关资料,然后一旦理解了书中的总结,就很难忘记了。工具

 

须要作的事:ui

  • 深入揣摩每段历史中核心的统计学问题;
  • 整理书中的天才们,出现的时间线,表明性的理论;
  • 书中重要理论思想内涵的总结

 

19世纪 - 机械师宇宙观 - 一切过程都是肯定的google

20世纪 - 统计模型 - 不肯定性在真实世界里广泛存在spa

 

天才大师们: 

Jacob Bernoulli (1655 – 1705) 伯努利设计

Pierre-Simon, marquis de Laplace (1749 – 1827) 拉普拉斯事件

Sir Francis Galton (1822 – 1911) 高尔顿ip

Karl Pearson (1857 – 1936) 卡尔·皮尔逊 - C2 - 偏斜分布

Walter Frank Raphael Weldon (1860 – 1906)  威尔顿

William Sealy Gosset (13 June 1876 – 16 October 1937) “学生”

Sir Ronald Aylmer Fisher (1890 – 1962) 费歇尔 - C1 - 实验设计

Emil Julius Gumbel (1891-1966) - C6

Jerzy Neyman (1894 – 1981) 奈曼

Egon Sharpe Pearson (1895 – 1980) 埃贡·皮尔逊 老pearson的儿子

Edwin James George Pitman 1897-1993

William Edwards Deming (1900 – 1993) 戴明

Leonard Henry Caleb Tippett (8 May 1902 – 9 November 1985) - C6

Andrey Nikolaevich Kolmogorov (1903 – 1987) 柯尔莫哥洛夫

Henry Berthold Mann (1905 – 2000)

Wassily Hoeffding (1914 – 1991) - C9 - U统计量

Donald Ransom Whitney (1915-2007)

John Wilder Tukey (1915 – 2000) 约翰·图

Irving John ("I. J.") Good (1916 – 2009)

George Edward Pelham Box (1919 – 2013)

Persi Warren Diaconis (1945-)

 

1 The Lady Tasting Tea 女士品茶

1.1 做者序

1.2 第一章 女士品茶 

1920年,Fisher就开始聊骚,开展女士品茶试验。

试验是检验真理的惟一标准,对统计也是如此。好的研究者要时刻对猜测和试验结果感到兴奋!

Fisher论述了如何开展科学的实验设计,引领了一场科学革命。

实验是人类增加知识的重要手段,这就是为何咱们这么多大学和研究所都在不停地作着各类花式实验。

一流的科学家从数据中发现新知识,二流的只是在积累数据。

Fisher是搞农业化肥数据分析起家的,发现现有的数据分析都是扯淡,里面包含了没法分开的confounder。

Fisher的科学实验设计方法很快席卷了全部科学实验领域。

注:

做者在辉瑞的经历和我惊人的吻合,须要处理不少疑难数学问题,还要负责讲解,让外行的合做者明白,同时要给出本身的结论。

做者的领悟:科研工做不可能独立完成,太容易犯错,须要多个同行从多方面检视,模型错误,假设错误,人为失误。学会提出问题,与专家讨论,你们一块儿检视问题,理解问题。

读Fisher的实验设计一书

William Harvey的血液循环路线的实验

Albert michelson的光速测定实验 - 须要一个高灵敏度的激光发射和检测工具,一面镜子。

Gregor mendel的豌豆杂交实验

现代高考的出题也是个实验设计的问题

1.3 第二章 偏斜分布

Laplace已经发明了偏差函数(正态分布),他假设咱们的观测值就是一个固定真值加上偏差。但随着测量精度的提升,咱们发现除去偏差后,测量数据仍然不是固定的,测量的变量存在固有的随机性。

1890年,karl pearson开始确立了统计模型的本质。

高尔顿热爱研究亲子智商和身高的遗传规律,这个时候的他就开始想经过亲代的性状来预测子代的性状了,如今咱们已经可以预测简单疾病了,但对复杂性状仍然无能为力(一个多世纪了)。

向平均回归的现象,regression to the mean:在遗传上,很是高的父亲,其孩子每每会比父亲矮一些。几乎全部的科学观察都在向平均回归。

向平均回归防止世界走向了极端,维持了世界的稳定。这也是为何人群里没法出现大象和老鼠大小的人。

高尔顿最早发明了相关系数,但倒是他的学生pearson完整规范的阐述了相关性。(不懂这里相关性和分布有什么关系)

观念革命:试验结果不是精准无误的测定,它包含了太多的不肯定性。咱们测量的数据永远是散布的,是有某种分布的,分布告诉咱们单次的数值是没法预测的、随机的,但统计模型却能很好的描述这种随机的性质。

测量值自己,而不是测量偏差,就具备一种正态分布。pearson提出了偏斜分布,其有四个参数。后来Neyman发现偏斜分布并不能包含全部的分布。

大天然基本上是随机的,真实性只存在于分布函数中。

我的想法:

什么是几率?我得病的几率是多少?万分之一。小几率事件意味着什么?

必需要溯源,不然说不清楚,几率来源于分布,分布说明了随机变量的散布性、不肯定性。定义一个随机变量X,X能够取0或1,0为不得病,1为得病,收集1万人的数据,咱们能够获得一个伯努利分布,P(X=1) = 0.0001. 不肯定是指咱们人类没法了解一个事件发生的全部缘由,咱们只能关注开头和结果。这里的开头是“你是人”,结尾是“你得病”。中间过于复杂的过程都被封装起来了。最终咱们发现结果服从一个分布。

咱们会说“明天下雨的几率”、“硬币朝上的几率”、“我生病的几率”,但咱们不会说“宇宙发生大爆炸的几率”,首先,以咱们的认知,宇宙处于一个特例中,没法重复,也没有发现的平行宇宙;其次咱们不知道除了大爆炸还有什么可能的结果。

小几率事件:全部几率小于一个阈值,如0.05,的事件都为小几率事件。最科学的解释就是100次试验里,该事件只会发生5次。因此在一次试验里几乎就是不可能发生的。

假设检验的逻辑也是如此,咱们假设小几率事件在一次实验里不会发生,咱们接受了第一类错误率为0.05.

注:

皮尔逊的两个挚友过早离世,致使老皮尔逊走进了死胡同。

Charles Darwin是pearson同时代的,提出生物变异是适者生存的理论基础。

晚年的karl pearson仍然精力十足,可是对科学再也不有重大贡献。

karl pearson首先读的是政治学,崇拜karl marx,因此把本身原来的carl改成karl。

pearson的第一部著做,《科学的法则》。

高尔顿发现了指纹现象。

Biometrika杂志诞生

pearson发明了拟合优度检验,goodness of fit test。

1.4 第三章 可爱的戈赛特先生

吉尼斯(世界纪录的那个)企业有意招聘具备化学背景的高材生,刚好招到了具备数学和化学背景的格赛特。科学问题是如何精准测量瓶中酵母的总量。

确切的数值不存在,存在的是单位液体内酵母数量的几率分布。格赛特成功的发现了泊松分布能很好的解决这个问题。

啤酒厂有保密要求,禁止职员泄露公司机密,格赛特开始在朋友皮尔逊底下进修,开始以“学生”身份发表文章。费歇尔是三人中数学造诣最高的。

“学生”的t检验,小样本问题,作生物实验更是如此,极少状况下咱们能够得到大样本。皮尔逊执着于拿到大样本,来估计本身偏斜分布中的四个参数。

格赛特则致力于解决如何衡量小样本中的随机偏差,发现了小样本的均值和标准差之比的规律,偏斜分布的前两个参数的比具备必定的规律。

t检验对数据没有假设,数据能够服从任何分布。

注:

老皮尔逊和费歇尔之间有着互相的偏见,而格赛特则负责调解。

1.5 第四章 在垃圾堆中寻觅

时间线回到1919年,开始讲Fisher的故事,Fisher太nb,不得不从其出生开始讲起。

Fisher从小就与人不一样,孤单多病,却具备很高的几何天赋,数理统计的直觉,别人须要证实好久的东西在他眼里就是直觉。

Fisher虽是剑桥最突出的高材生,但工做也是一波三折,也算经历了第一次世界大战。

Fisher和老pearson之间的恩怨情仇。

老pearson属于典型的自私执拗型的大佬,凭借本身的学术地位来打压、压榨年轻的天才。在每一个单位里都存在这种大佬,一心为了本身的名利,可是他们显然快要灯枯油尽了(年龄和灵感),因此不得不靠榨取年轻的精灵来苟且维生,这也是符合天然界规律的。

Fisher数学功底深厚,他支持和推崇优生学说(有选择的改变人类的基因库),因此被指责为法西斯。(有相关的电影了,讽刺最终人类整体变得低智)

(其实错了,天然选择留下的都是最适合生存的人,只能说智商与生存能力有一点的相关性,二者并不等同)

pearson钟情于社会主义,Fisher则更加关注遗传学,开始研究mendel的理论和数据。

孟德尔和Fisher这个时代的人已经慢慢意识到,生物体内存在控制生命性质的基因,统计几率理论能够用于描述生物体内基因与表型互做的不肯定性。

Fisher一大著做:《研究工做者的统计方法》工具书,书中省去了复杂数学理论,着重阐述了统计的应用,因此很快就流行起来了。(名言:文章中每多一个公式,读者数量就减半,数学门槛仍是很高的)

自此,Fisher带着全家和小姨子开始了在农业站的练级之旅。。。

1.6 第五章 收成变更研究

Fisher的《studies in crop variation》系列,共6篇,google一下就能找到原稿。数据挖掘的鼻祖,真正地从数据中发现知识。

“开发了用于数据分析的原创性工具,创建了这些工具的数学基础,并描述了如何将他们应用到其余领域”

variance和variation的区别?前者特指方差,后者词性更general,表示变更;还有一个variant,特指变异。

<contributions to mathematical statistics> - john wiley

全能的Fisher,不只要作体力的计算工做,还要思考数学问题,整理数据,设计分析框架,修正不可避免的错误。

高尔顿回归思想的通常化,微积分基础,几率分布,多维几何学。

变异的拆分,时间序列分析的起源。

随机化控制实验,没法控制的肥力梯度效应能够用随机化抵消。

方差分析问世:在精心设计的科学实验中,如何分解各类不一样处理的效应?

协方差分析问世:因素分解

自由度的引入:调和不一样做者观测到的差别结果。几何洞察力、多维几何空间。指出了老pearson的一个错误。

注:

1. 要深入理解正态分布,以及其衍生而来卡方分布(独立正态分布的平方和)、t分布(小样本的z分布)、F分布(两个卡方发布之比)。

2. 方差分析的核心,变异分解,总方差=组内方差+组间方差,假设随机偏差服从正态分布,由于是多个样本,因此要检验的是两个卡方分布之比。

3. 协方差分析的核心,回归和方差分析,利用回归的方法去掉潜在confounder的影响。

1.7 第六章 百年一遇的大洪水

极值的分布,如何预测罕见洪灾的洪峰的高度?本章的蒂皮特解决了这个难题。

咱们人类喜欢精确,咱们天生厌恶不肯定性,但是咱们必须接受不肯定性,由于咱们是观察者和改造者,不是缔造者。

如何预测纺线的强度?由于是线性的,因此棉线的强度取决于棉线中最脆弱的纤维的强度。

为了解决这个问题,蒂皮特开始在皮尔逊底下进修。能够看出蒂皮特高度评价了皮尔逊。(看问题不能只从一个角度)

蒂皮特找到了样本的数据分布与极值分布的关系,殊不知如何解出该方程,因此去请教了Fisher,获得了“蒂皮特的三条极值渐进线”。

冈贝尔的极值统计学,本文做者高度评价了这本书。

1.8 第七章 fisher 的胜利

Fisher和pearson的统计哲学观的分歧和较量。

在顶级期刊上发表论文很难,但更难的是受邀去知名大会上作学术汇报,由于你们会预习你的成果,因此在讨论时会很是详尽,且一针见血。

真正精华的科学研究都是在这种讨论会中造成和接受检验的。

“对他带给统计学研究的无与伦比的热忱,对他提出的数学工具的威力”。

老pearson、小pearson、Fisher、奈曼,相互之间的关系。

统计哲学观的分歧:

老pearson:统计分布是分析数据的真实描述;

Fisher:真实分布是抽象的数学公式,收集的数据只能用于估计其参数。我理解的就是pearson就是想收集数据,而后算他的偏斜分布。而Fisher则认为真实的分布是没法经过观测数据来直接得知的,必须考虑到数据获取过程当中的随机性。因此Fisher更强调“估计”,pearson则没有,认为能够直接计算。

测量值的随机性是真实存在的,为了区分开参数的估计值和参数自己,咱们把估计值叫作统计量,统计量具备随机性。

好的统计量必须具备三个特性:一致性、无偏性和有效性。

Fisher的极大似然法,为了获得一致且有效的统计量,Fisher发明了MLE。数学上的完备性。

迭代算法,试位法。EM算法,模拟退火算法。。。

Fisher和奈曼之间的恩怨。

1.9 第八章 致死剂量

生物统计学会,选地、汇报讨论、约饭、交友。

一个研究杀虫剂的基友,遇到了困难,因而去读Fisher的著做,必须从应用工具和数学原理这两个角度来研究Fisher的思想。

几率单位分析,杀虫剂的有趣观察,如何从数学和统计的角度思考问题,并把平常语言转化为数学统计语言,这才是最难,也是最重要的!!!

probit,杀虫剂剂量和虫子死掉的几率,二者之间的关系。半数致死剂量。对一只虫子,咱们不可能获得能杀死它的剂量,对一群虫子,咱们也得不到杀死它们所有的剂量。

没法估计表明咱们作不到,咱们人类永远只能作咱们能作的,由于受限,就像死亡同样。

动乱时代下的统计学家,究竟是安稳仍是动乱更能成就伟人?时势造英雄!


1.10 第九章 钟型曲线

为何说英国是统计革命的发源地?

中心极限定理的重要性!

正态分布所具备的优良特性使得其逐渐成为了统计分布的大哥。

如何证实中心极限定理?

林德伯格·利伟条件和U统计量,渐进正态分布的一组统计量。

运筹学,用数学模型和科学思惟来解决问题。

1.11 第十章 拟合优度检验

混沌理论,蝴蝶效应。

皮尔逊的拟合优度检验,能够用于检验两个变量之间有无显著性关系。

假设检验

奈曼的散播分布

1.12 第十一章 假设检验

假设检验的效力power的重要性。

几率的现实意义。

1.13 第十二章 置信诡计


1.14 第十三章 贝叶斯异论

 

1.15 第十四章 数学界的莫扎特

 

1.16 第十五章 小人物之看法

 

1.17 第十六章 非参数方法

 

1.18 第十七章 当部分优于整体时 :随机分布


1.19 第十八章 吸烟引起肺癌吗?


1.20 第十九章 若是您须要最佳人选。。。。

 

1.21 第二十章 朴实的德克萨斯农家小伙

 

1.22 第二十一章 家庭中的天才

 

1.23 第二十二章 统计学界的毕加索


1.24 第二十三章 处理有瑕疵的数据 稳健性


1.25 第二十四章 重塑产业的人 : 戴明与质量管理


1.26 第二十五章 黑衣女士的忠告


1.27 第二十六章 鞅的发展


1.28 第二十七章 意向治疗法


1.29 第二十八章 电脑为所欲为


1.30 第二十九章 泥菩萨


1.31 误称定律
1.32 卡尔达诺

 

 

待续~

相关文章
相关标签/搜索