The Lady Tasting Tea - How Statistics Revolutionized Science in the Twentieth Century 算法
本书只讨论了20世纪这100年间的统计大变革。框架
通常的书读读就行,惟独这本书须要慢慢品读,让统计的思想深刻骨髓。函数
这本书不适合空读,而要结合本身对统计学的理解来读,遇到不懂的时候不要跳过,停下来仔细查阅相关资料,然后一旦理解了书中的总结,就很难忘记了。工具
须要作的事:ui
19世纪 - 机械师宇宙观 - 一切过程都是肯定的google
20世纪 - 统计模型 - 不肯定性在真实世界里广泛存在spa
Jacob Bernoulli (1655 – 1705) 伯努利设计
Pierre-Simon, marquis de Laplace (1749 – 1827) 拉普拉斯事件
Sir Francis Galton (1822 – 1911) 高尔顿ip
Karl Pearson (1857 – 1936) 卡尔·皮尔逊 - C2 - 偏斜分布
Walter Frank Raphael Weldon (1860 – 1906) 威尔顿
William Sealy Gosset (13 June 1876 – 16 October 1937) “学生”
Sir Ronald Aylmer Fisher (1890 – 1962) 费歇尔 - C1 - 实验设计
Emil Julius Gumbel (1891-1966) - C6
Jerzy Neyman (1894 – 1981) 奈曼
Egon Sharpe Pearson (1895 – 1980) 埃贡·皮尔逊 老pearson的儿子
Edwin James George Pitman 1897-1993
William Edwards Deming (1900 – 1993) 戴明
Leonard Henry Caleb Tippett (8 May 1902 – 9 November 1985) - C6
Andrey Nikolaevich Kolmogorov (1903 – 1987) 柯尔莫哥洛夫
Henry Berthold Mann (1905 – 2000)
Wassily Hoeffding (1914 – 1991) - C9 - U统计量
Donald Ransom Whitney (1915-2007)
John Wilder Tukey (1915 – 2000) 约翰·图
Irving John ("I. J.") Good (1916 – 2009)
George Edward Pelham Box (1919 – 2013)
Persi Warren Diaconis (1945-)
1.1 做者序
1920年,Fisher就开始聊骚,开展女士品茶试验。
试验是检验真理的惟一标准,对统计也是如此。好的研究者要时刻对猜测和试验结果感到兴奋!
Fisher论述了如何开展科学的实验设计,引领了一场科学革命。
实验是人类增加知识的重要手段,这就是为何咱们这么多大学和研究所都在不停地作着各类花式实验。
一流的科学家从数据中发现新知识,二流的只是在积累数据。
Fisher是搞农业化肥数据分析起家的,发现现有的数据分析都是扯淡,里面包含了没法分开的confounder。
Fisher的科学实验设计方法很快席卷了全部科学实验领域。
注:
做者在辉瑞的经历和我惊人的吻合,须要处理不少疑难数学问题,还要负责讲解,让外行的合做者明白,同时要给出本身的结论。
做者的领悟:科研工做不可能独立完成,太容易犯错,须要多个同行从多方面检视,模型错误,假设错误,人为失误。学会提出问题,与专家讨论,你们一块儿检视问题,理解问题。
读Fisher的实验设计一书
William Harvey的血液循环路线的实验
Albert michelson的光速测定实验 - 须要一个高灵敏度的激光发射和检测工具,一面镜子。
Gregor mendel的豌豆杂交实验
现代高考的出题也是个实验设计的问题
Laplace已经发明了偏差函数(正态分布),他假设咱们的观测值就是一个固定真值加上偏差。但随着测量精度的提升,咱们发现除去偏差后,测量数据仍然不是固定的,测量的变量存在固有的随机性。
1890年,karl pearson开始确立了统计模型的本质。
高尔顿热爱研究亲子智商和身高的遗传规律,这个时候的他就开始想经过亲代的性状来预测子代的性状了,如今咱们已经可以预测简单疾病了,但对复杂性状仍然无能为力(一个多世纪了)。
向平均回归的现象,regression to the mean:在遗传上,很是高的父亲,其孩子每每会比父亲矮一些。几乎全部的科学观察都在向平均回归。
向平均回归防止世界走向了极端,维持了世界的稳定。这也是为何人群里没法出现大象和老鼠大小的人。
高尔顿最早发明了相关系数,但倒是他的学生pearson完整规范的阐述了相关性。(不懂这里相关性和分布有什么关系)
观念革命:试验结果不是精准无误的测定,它包含了太多的不肯定性。咱们测量的数据永远是散布的,是有某种分布的,分布告诉咱们单次的数值是没法预测的、随机的,但统计模型却能很好的描述这种随机的性质。
测量值自己,而不是测量偏差,就具备一种正态分布。pearson提出了偏斜分布,其有四个参数。后来Neyman发现偏斜分布并不能包含全部的分布。
大天然基本上是随机的,真实性只存在于分布函数中。
我的想法:
什么是几率?我得病的几率是多少?万分之一。小几率事件意味着什么?
必需要溯源,不然说不清楚,几率来源于分布,分布说明了随机变量的散布性、不肯定性。定义一个随机变量X,X能够取0或1,0为不得病,1为得病,收集1万人的数据,咱们能够获得一个伯努利分布,P(X=1) = 0.0001. 不肯定是指咱们人类没法了解一个事件发生的全部缘由,咱们只能关注开头和结果。这里的开头是“你是人”,结尾是“你得病”。中间过于复杂的过程都被封装起来了。最终咱们发现结果服从一个分布。
咱们会说“明天下雨的几率”、“硬币朝上的几率”、“我生病的几率”,但咱们不会说“宇宙发生大爆炸的几率”,首先,以咱们的认知,宇宙处于一个特例中,没法重复,也没有发现的平行宇宙;其次咱们不知道除了大爆炸还有什么可能的结果。
小几率事件:全部几率小于一个阈值,如0.05,的事件都为小几率事件。最科学的解释就是100次试验里,该事件只会发生5次。因此在一次试验里几乎就是不可能发生的。
假设检验的逻辑也是如此,咱们假设小几率事件在一次实验里不会发生,咱们接受了第一类错误率为0.05.
注:
皮尔逊的两个挚友过早离世,致使老皮尔逊走进了死胡同。
Charles Darwin是pearson同时代的,提出生物变异是适者生存的理论基础。
晚年的karl pearson仍然精力十足,可是对科学再也不有重大贡献。
karl pearson首先读的是政治学,崇拜karl marx,因此把本身原来的carl改成karl。
pearson的第一部著做,《科学的法则》。
高尔顿发现了指纹现象。
Biometrika杂志诞生
pearson发明了拟合优度检验,goodness of fit test。
吉尼斯(世界纪录的那个)企业有意招聘具备化学背景的高材生,刚好招到了具备数学和化学背景的格赛特。科学问题是如何精准测量瓶中酵母的总量。
确切的数值不存在,存在的是单位液体内酵母数量的几率分布。格赛特成功的发现了泊松分布能很好的解决这个问题。
啤酒厂有保密要求,禁止职员泄露公司机密,格赛特开始在朋友皮尔逊底下进修,开始以“学生”身份发表文章。费歇尔是三人中数学造诣最高的。
“学生”的t检验,小样本问题,作生物实验更是如此,极少状况下咱们能够得到大样本。皮尔逊执着于拿到大样本,来估计本身偏斜分布中的四个参数。
格赛特则致力于解决如何衡量小样本中的随机偏差,发现了小样本的均值和标准差之比的规律,偏斜分布的前两个参数的比具备必定的规律。
t检验对数据没有假设,数据能够服从任何分布。
注:
老皮尔逊和费歇尔之间有着互相的偏见,而格赛特则负责调解。
时间线回到1919年,开始讲Fisher的故事,Fisher太nb,不得不从其出生开始讲起。
Fisher从小就与人不一样,孤单多病,却具备很高的几何天赋,数理统计的直觉,别人须要证实好久的东西在他眼里就是直觉。
Fisher虽是剑桥最突出的高材生,但工做也是一波三折,也算经历了第一次世界大战。
Fisher和老pearson之间的恩怨情仇。
老pearson属于典型的自私执拗型的大佬,凭借本身的学术地位来打压、压榨年轻的天才。在每一个单位里都存在这种大佬,一心为了本身的名利,可是他们显然快要灯枯油尽了(年龄和灵感),因此不得不靠榨取年轻的精灵来苟且维生,这也是符合天然界规律的。
Fisher数学功底深厚,他支持和推崇优生学说(有选择的改变人类的基因库),因此被指责为法西斯。(有相关的电影了,讽刺最终人类整体变得低智)
(其实错了,天然选择留下的都是最适合生存的人,只能说智商与生存能力有一点的相关性,二者并不等同)
pearson钟情于社会主义,Fisher则更加关注遗传学,开始研究mendel的理论和数据。
孟德尔和Fisher这个时代的人已经慢慢意识到,生物体内存在控制生命性质的基因,统计几率理论能够用于描述生物体内基因与表型互做的不肯定性。
Fisher一大著做:《研究工做者的统计方法》工具书,书中省去了复杂数学理论,着重阐述了统计的应用,因此很快就流行起来了。(名言:文章中每多一个公式,读者数量就减半,数学门槛仍是很高的)
自此,Fisher带着全家和小姨子开始了在农业站的练级之旅。。。
Fisher的《studies in crop variation》系列,共6篇,google一下就能找到原稿。数据挖掘的鼻祖,真正地从数据中发现知识。
“开发了用于数据分析的原创性工具,创建了这些工具的数学基础,并描述了如何将他们应用到其余领域”
variance和variation的区别?前者特指方差,后者词性更general,表示变更;还有一个variant,特指变异。
<contributions to mathematical statistics> - john wiley
全能的Fisher,不只要作体力的计算工做,还要思考数学问题,整理数据,设计分析框架,修正不可避免的错误。
高尔顿回归思想的通常化,微积分基础,几率分布,多维几何学。
变异的拆分,时间序列分析的起源。
随机化控制实验,没法控制的肥力梯度效应能够用随机化抵消。
方差分析问世:在精心设计的科学实验中,如何分解各类不一样处理的效应?
协方差分析问世:因素分解
自由度的引入:调和不一样做者观测到的差别结果。几何洞察力、多维几何空间。指出了老pearson的一个错误。
注:
1. 要深入理解正态分布,以及其衍生而来卡方分布(独立正态分布的平方和)、t分布(小样本的z分布)、F分布(两个卡方发布之比)。
2. 方差分析的核心,变异分解,总方差=组内方差+组间方差,假设随机偏差服从正态分布,由于是多个样本,因此要检验的是两个卡方分布之比。
3. 协方差分析的核心,回归和方差分析,利用回归的方法去掉潜在confounder的影响。
极值的分布,如何预测罕见洪灾的洪峰的高度?本章的蒂皮特解决了这个难题。
咱们人类喜欢精确,咱们天生厌恶不肯定性,但是咱们必须接受不肯定性,由于咱们是观察者和改造者,不是缔造者。
如何预测纺线的强度?由于是线性的,因此棉线的强度取决于棉线中最脆弱的纤维的强度。
为了解决这个问题,蒂皮特开始在皮尔逊底下进修。能够看出蒂皮特高度评价了皮尔逊。(看问题不能只从一个角度)
蒂皮特找到了样本的数据分布与极值分布的关系,殊不知如何解出该方程,因此去请教了Fisher,获得了“蒂皮特的三条极值渐进线”。
冈贝尔的极值统计学,本文做者高度评价了这本书。
Fisher和pearson的统计哲学观的分歧和较量。
在顶级期刊上发表论文很难,但更难的是受邀去知名大会上作学术汇报,由于你们会预习你的成果,因此在讨论时会很是详尽,且一针见血。
真正精华的科学研究都是在这种讨论会中造成和接受检验的。
“对他带给统计学研究的无与伦比的热忱,对他提出的数学工具的威力”。
老pearson、小pearson、Fisher、奈曼,相互之间的关系。
统计哲学观的分歧:
老pearson:统计分布是分析数据的真实描述;
Fisher:真实分布是抽象的数学公式,收集的数据只能用于估计其参数。我理解的就是pearson就是想收集数据,而后算他的偏斜分布。而Fisher则认为真实的分布是没法经过观测数据来直接得知的,必须考虑到数据获取过程当中的随机性。因此Fisher更强调“估计”,pearson则没有,认为能够直接计算。
测量值的随机性是真实存在的,为了区分开参数的估计值和参数自己,咱们把估计值叫作统计量,统计量具备随机性。
好的统计量必须具备三个特性:一致性、无偏性和有效性。
Fisher的极大似然法,为了获得一致且有效的统计量,Fisher发明了MLE。数学上的完备性。
迭代算法,试位法。EM算法,模拟退火算法。。。
Fisher和奈曼之间的恩怨。
生物统计学会,选地、汇报讨论、约饭、交友。
一个研究杀虫剂的基友,遇到了困难,因而去读Fisher的著做,必须从应用工具和数学原理这两个角度来研究Fisher的思想。
几率单位分析,杀虫剂的有趣观察,如何从数学和统计的角度思考问题,并把平常语言转化为数学统计语言,这才是最难,也是最重要的!!!
probit,杀虫剂剂量和虫子死掉的几率,二者之间的关系。半数致死剂量。对一只虫子,咱们不可能获得能杀死它的剂量,对一群虫子,咱们也得不到杀死它们所有的剂量。
没法估计表明咱们作不到,咱们人类永远只能作咱们能作的,由于受限,就像死亡同样。
动乱时代下的统计学家,究竟是安稳仍是动乱更能成就伟人?时势造英雄!
为何说英国是统计革命的发源地?
中心极限定理的重要性!
正态分布所具备的优良特性使得其逐渐成为了统计分布的大哥。
如何证实中心极限定理?
林德伯格·利伟条件和U统计量,渐进正态分布的一组统计量。
运筹学,用数学模型和科学思惟来解决问题。
混沌理论,蝴蝶效应。
皮尔逊的拟合优度检验,能够用于检验两个变量之间有无显著性关系。
假设检验
奈曼的散播分布
假设检验的效力power的重要性。
几率的现实意义。
1.15 第十四章 数学界的莫扎特
1.16 第十五章 小人物之看法
1.17 第十六章 非参数方法
1.18 第十七章 当部分优于整体时 :随机分布
1.19 第十八章 吸烟引起肺癌吗?
1.20 第十九章 若是您须要最佳人选。。。。
1.21 第二十章 朴实的德克萨斯农家小伙
1.22 第二十一章 家庭中的天才
1.23 第二十二章 统计学界的毕加索
1.24 第二十三章 处理有瑕疵的数据 稳健性
1.25 第二十四章 重塑产业的人 : 戴明与质量管理
1.26 第二十五章 黑衣女士的忠告
1.27 第二十六章 鞅的发展
1.28 第二十七章 意向治疗法
1.29 第二十八章 电脑为所欲为
1.30 第二十九章 泥菩萨
1.31 误称定律
1.32 卡尔达诺
待续~