转载自:https://cos.name/2013/01/story-of-normal-distribution-1/web
神说,要有正态分布,就有了正态分布。
神看正态分布是好的,就让随机偏差服从了正态分布。
创世纪—数理统计算法
1. 正态分布,熟悉的陌生人框架
学过基础统计学的同窗大都对正态分布很是熟悉。这个钟形的分布曲线不但形状优雅,它对应的密度函数写成数学表达式dom
也很是具备数学的美感。其标准化后的几率密度函数机器学习
更加的简洁漂亮,两个最重要的数学常量 ππ、ee 都出如今这公式之中。在我我的的审美之中,它也属于 top-N 的最美丽的数学公式之一,若是有人问我数理统计领域哪一个公式最能让人感受到上帝的存在,那我必定投正态分布的票。由于这个分布戴着神秘的面纱,在天然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。ide
正态分布又一般被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。2002年之前去过德国的兄弟们还会发现,德国1991年至2001年间发行的的一款10马克的纸币上印着高斯(Carl Friedrich Gauss, 1777-1855)的头像和正态密度曲线,而1977年东德发行的20马克的可流通记念钢镚上,也印着正态分布曲线和高斯的名字。正态分布被冠名高斯分布,咱们也容易认为是高斯发现了正态分布,其实否则,不太高斯对于正态分布的历史地位的确立是起到了决定性的做用。学习
正态曲线虽然看上去很美,却不是一拍脑壳就能想到的。咱们在本科学习数理统计的时候,课本一上来介绍正态分布就给出分布密度函数,却历来不说明这个密度函数是经过什么原理推导出来的。因此我一直搞不明白数学家当年是怎么找到这个几率分布曲线的,又是怎么发现随机偏差服从这个奇妙的分布的。咱们在实践中大量的使用正态分布,却对这个分布的前因后果知之甚少,正态分布真是让人感受既熟悉又陌生。直到我读研究生的时候,个人导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了以后才了解了正态分布曲线从发现到被人们重视进而普遍应用,也是通过了几百年的历史。spa
正态分布的这段历史是很精彩的,咱们经过讲一系列的故事来揭开她的神秘面纱。
2. 邂逅,正态曲线的首次发现
第一个故事和几率论的发展密切相关,主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过你们应该都应该很熟悉这个名字,由于咱们在高中数学学复数的时候都学过棣莫弗公式
而棣莫弗所写的《机遇论》(The doctrine of chances)是几率论发展历史中很重要的一本书。牛顿对棣莫弗十分欣赏,遇到学生向他请教几率方面的问题时,他就说:“这样的问题应该去找棣莫弗,他对这些问题的研究比我深刻得多。”
古典几率论发源于赌博,惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡(Blaise Pascal, 1623-1662)、费马(Pierre de Fermat, 1601-1665)、雅可比·贝努利(Jacob Bernoulli, 1654-1705)都是古典几率的奠定人,他们那会研究的几率问题大都来自赌桌上,最先的几率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的整体均值之因此被称为指望 (Expectation), 就是源自惠更斯、帕斯卡这些人研究平均状况下一个赌徒在赌桌上能够指望本身赢得多少钱。
有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的问题:A、B 两人在赌场里赌博,A、B各自的获胜几率是p,q=1−pp,q=1−p, 赌 nn 局。两人约定:若 A 赢的局数 X>npX>np, 则 A 付给赌场 X−npX−np 元;若 X<npX<np,则B 付给赌场 np−Xnp−X元。 问赌场挣钱的指望值是多少。
问题并不复杂, 本质上是一个二项分布,若 npnp 为整数,棣莫弗求出最后的理论结果是
其中 b(n,p,i)=(ni)piqn−ib(n,p,i)=(ni)piqn−i 是常见的二项几率。 可是对具体的 nn, 由于其中的二项公式中有组合数,要把这个理论结果实际计算出数值结果可不是件容易的事, 这就驱动棣莫弗寻找近似计算的方法。
与此相关联的另外一个问题,是听从二项分布的随机变量 X∼B(n,p)X∼B(n,p), 求X 落在二项分布中心点必定范围的几率 Pd=P(|X–np|≤d)Pd=P(|X–np|≤d)。
对于 p=1/2p=1/2 的情形, 棣莫弗作了一些计算并获得了一些近似结果,可是还不够漂亮,幸运的是棣莫弗和斯特林(James Stirling, 1692-1770)处在同一个时代, 并且二人之间有联系,斯特林公式是在数学分析中必学的一个重要公式
事实上斯特林公式的雏形是棣莫弗最早获得的,但斯特林改进了这个公式,改进的结果为棣莫弗所用。1733 年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑 nn 是偶数的情形,二项几率为
如下把b(n,12,i)b(n,12,i)简记为b(i)b(i), 经过斯特林公式作一些简单的计算容易获得,
因而有
使用上式的结果,并在二项几率累加求和的过程当中近似的使用定积分代替求和,很容易就能获得
看,正态分布的密度函数的形式在积分公式中出现了!这也就是咱们在数理统计课本上学到的一个重要结论:二项分布的极限分布是正态分布。
以上只是讨论了 p=1/2p=1/2 的情形, 棣莫弗也对 p≠1/2p≠1/2作了一些计算,后来拉普拉斯对 p≠1/2p≠1/2 的状况作了更多的分析,并把二项分布的正态近似推广到了任意 pp的状况。 这是第一次正态密度函数被数学家刻画出来,并且是以二项分布的极限分布的形式被推导出来的。 熟悉基础几率统计的同窗们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。
[棣莫弗-拉普拉斯中心极限定理]设随机变量 Xn(n=1,2,⋯)Xn(n=1,2,⋯) 服从参数为 n,pn,p 的二项分布,则对任意的 xx, 恒有
咱们在大学学习数理统计的时候,学习的过程都是先学习正态分布,而后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其几率密度的数学形式,虽然数学上很漂亮,可是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》以后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程不多是按照咱们数学课本编排的顺序推动的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA 双螺旋结构的发现者之一詹姆斯·沃森(James D. Watson, 1928-) 在他的名著《DNA 双螺旋》序言中说:“ Science seldom proceeds in the straightforward logical manner imagined by outsiders. (科学的发现不多会像门外汉所想象的同样,按照直接了当合乎逻辑的方式进行的。)”
棣莫弗给出他的发现后40年(大约是1770年), 拉普拉斯创建了中心极限定理较通常的形式,中心极限定理随后又被其余数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量 NN 趋于无穷的时候, 其极限分布都有正态的形式, 这构成了数理统计学中大样本理论的基础。
棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并无能展示这个曲线的美妙之处。棣莫弗的这个工做当时并无引发人们足够的重视,缘由在于棣莫弗 不是个统计学家,从未从统计学的角度去考虑其工做的意义。 正态分布(当时也没有被命名为正态分布) 在当时也只是以极限分布的形式出现,并无在统计学,尤为是偏差分析中发挥做用。这也就是正态分布最终没有被冠名 棣莫弗分布的重要缘由。 那高斯作了啥工做致使统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展提及。
3. 最小二乘法,数据分析的瑞士军刀
第二个故事的主角是欧拉(Leonhard Euler, 1707-1783)、拉普拉斯、勒让德 (Adrien-Marie Legendre, 1752–1833) 和高斯, 故事发生的时间是18世纪中到19世纪初。1七、18 世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的创建,直接的推进了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题,几个典型的问题以下:
这些天文学和测地学的问题,无不涉及到数据的屡次测量、分析与计算;1七、18世纪的天文观测,也积累了大量的数据须要进行分析和计算。不少年之前,学者们就已经经验性的认为,对于有偏差的测量数据,屡次测量取算术平均是比较好的处理方法。虽然缺少理论上的论证,也不断的受到一些人的质疑,取算术平均做为一种异常直观的方式,已经被使用了千百年, 在多年积累的数据的处理经验中也获得至关程度的验证,被认为是一种良好的数据处理方法。
以上涉及的问题,咱们直接关心的目标量每每没法直接观测,可是一些相关的量是能够观测到的,而经过创建数学模型,最终能够解出咱们关心的量。这些问题均可以用以下数学模型描述:咱们想估计的量是 β0,⋯,βpβ0,⋯,βp, 另有若干个能够测量的量 x1,⋯,xp,yx1,⋯,xp,y, 这些量之间有线性关系
如何经过多组观测数据求解出参数β0,⋯,βpβ0,⋯,βp呢? 欧拉和拉普拉斯采用的的方法都是求解以下线性方程组
可是面临的一个问题是,有 nn 组观测数据,p+1p+1 个变量, 若是 n>p+1n>p+1, 则获得的线性矛盾方程组,没法直接求解。 因此欧拉和拉普拉斯采用的方法都是经过对数据的必定的观察,把nn个线性方程分为 p+1p+1组,而后把每一个组内的方程线性求和后归并为一个方程,从而就把nn个方程的方程组化为p+1p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,可是都过于经验化, 没法造成统一处理这一类问题的通用解决框架。
以上求解线性矛盾方程的问题在如今的本科生看来都不困难,这就是统计学中的线性回归问题,直接用最小二乘法就解决了。但是即使如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有偏差,因此全部方程的累积偏差为
累积偏差 = ∑(∑( 观测值 – 理论值 )2)2
咱们求解出致使累积偏差最小的参数
勒让德在论文中对最小二乘法的优良性作了几点说明:
对于最后一点,推理以下:假设真值为 θθ, x1,⋯,xnx1,⋯,xn为nn次测量值, 每次测量的偏差为ei=xi–θei=xi–θ,按最小二乘法,偏差累积为
求解θθ 使得 L(θ)L(θ)达到最小,正好是算术平均 x¯¯¯=∑ni=1xinx¯=∑i=1nxin。
因为算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘法的一个特例,因此从另外一个角度说明了最小二乘法的优良性,使咱们对最小二乘法更加有信心。
最小二乘法发表以后很快获得了你们的承认接受,并迅速的在数据分析实践中被普遍使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809 年也发表了最小二乘法,而且声称本身已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘法进行计算,准确的预测了谷神星的位置。
扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法自己,虽然很实用,不过看上去更多的算是一个代数方法,虽然能够推导出最优解,对于解的偏差有多大,没法给出有效的分析,而这个就是正态分布粉墨登场发挥做用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,可是刀刃仍是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是由于高斯不但独自的给出了造刀的方法,并且把最小二乘这把刀的刀刃磨得无比锋利,把最小二乘法打形成了一把瑞士军刀。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一块儿,并使得正态分布在统计偏差分析中确立了本身的地位,不然正态分布就不会被称为高斯分布了。 那高斯这位神人是如何把正态分布引入到偏差分析之中,打造最小二乘法这把瑞士军刀的呢?
4. 众里寻她千百度,偏差分布曲线的确立
第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是寻找随机偏差分布的规律。
天文学是第一个被测量偏差困扰的学科,从古代至18世纪天文学一直是应用数学最发达的领域,到18世纪,天文学的发展积累了大量的天文学数据须要分析计算,应该如何来处理数据中的观测偏差成为一个很棘手的问题。咱们在数据处理中常用平均的常识性法则,千百来来的数据使用经验说明算术平均可以消除偏差,提升精度。算术平均有如此的魅力,道理何在,以前没有人作过理论上的证实。算术平均的合理性问题在天文学的数据分析工做中被提出来讨论:测量中的随机偏差应该服从怎样的几率分布?算术平均的优良性和偏差的分布有怎样的密切联系?
伽利略在他著名的《关于两个主要世界系统的对话》中,对偏差的分布作过一些定性的描述,主要包括:
用数学的语言描述,也就是说偏差分布的密度函数 f(x)f(x) 关于0对称分布,几率密度随|x||x| 增长而减少,这两个定性的描述都很符合常识。
许多天文学家和数学家开始了寻找偏差分布曲线的尝试。 天文学家辛普森(Thomas Simpson, 1710-1761) 先走出了有意义的一步。设真值为 θθ, x1,⋯,xnx1,⋯,xn 为n次测量值, 每次测量的偏差为ei=xi–θei=xi–θ,若用算术平均 x¯¯¯=∑ni=1xinx¯=∑i=1nxin去估计θθ, 其偏差为 e¯¯¯=∑ni=1eine¯=∑i=1nein。 辛普森证实了, 对于以下的一个几率分布,
有以下结论
也就是说,|e¯¯¯||e¯| 相比于|ei||ei|取小值的机会更大。 辛普森的这个工做很粗糙,可是这是第一次在一个特定状况下,从几率论的角度严格证实了算术平均的优良性。
从 1772-1774 年, 拉普拉斯也加入到了寻找偏差分布密度函数的队伍中。拉普拉斯假定偏差分布密度函数f(x)f(x)对称且知足
由此可求得分布密度函数为
这个几率密度函数如今被称为拉普拉斯分布。
拉普拉斯的偏差分布曲线
以该函数做为偏差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯能够算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法很是类似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/21/2分位点,做为参数估计值。但是基于这个偏差分布密度函数作了一些计算以后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。
拉普拉斯但是几率论的大牛,写过在几率发展历史中极有影响力的《分析几率论》,不过以个人数学审美,实在没法理解拉普拉斯这样的牛人怎么找了一个零点不可导的函数做为偏差的分布密度函数,拉普拉斯最终仍是没能搞定偏差分布的问题。
如今轮到高斯登场了,高斯在数学史中的地位极高,年轻的时候号称数学王子,后来被称为数学家中的老狐狸,数学家阿贝尔 (Niels Henrik Abel, 1802-1829) 对他的评论是 :“高斯像一只狐狸,用尾巴将沙地上的足迹抹去(He is like the fox, who effaces his tracks in the sand with his tail) 。” 咱们的数学大师陈省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和庞加莱(Jules Henri Poincaré, 1854-1912)称为数学家中的菩萨,而称本身为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中既能仰望理论数学的星空,又能脚踏应用数学的实地的可很少见,高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深入的洞察力,又极其重视数学在实践中的应用。 在偏差分布的处理中,高斯以极其简单的手法确立了随机偏差的几率分布,其结果成为数理统计发展史上的一块里程碑。
高斯的介入首先要从天文学界的一个事件提及。1801年1月,天文学家朱塞普·皮亚齐 (Giuseppe Piazzi, 1746-1826)发现了一颗从未见过的光度8等的星在移动,这颗如今被称做谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后就在太阳的光芒下没了踪迹,没法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也所以没法肯定这颗新星是彗星仍是行星,这个问题很快成了学术界关注的焦点。高斯当时已是颇有名望的年轻数学家了,这个问题引发了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时以内就计算出了谷神星的轨道,并预言了他在夜空中出现的时间和位置。 1801年12月31 日夜,德国天文爱好者奥伯斯(Heinrich Olbers, 1758-1840),在高斯预言的时间里,用望远镜对准了这片天空。果真不出所料,谷神星出现了!
高斯为此名声大震,可是高斯当时拒绝透露计算轨道的方法,缘由多是高斯认为本身的方法的理论基础还不够成熟,而高斯一贯治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态偏差分布为基础的最小二乘法。那高斯是如何推导出偏差分布为正态分布的?让咱们看看高斯是如何猜想上帝的意图的。
设真值为 θθ, x1,⋯,xnx1,⋯,xn为nn次独立测量值, 每次测量的偏差为ei=xi–θei=xi–θ,假设偏差eiei的密度函数为 f(e)f(e), 则测量值的联合几率为nn个偏差的联合几率,记为
可是高斯不采用贝叶斯的推理方式,而是直接取使L(θ)L(θ)达到最大值的 θ^=θ^(x1,⋯,xn)θ^=θ^(x1,⋯,xn) 做为θθ的估计值,即
如今咱们把L(θ)L(θ) 称为样本的似然函数,而获得的估计值θ^θ^ 称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家费希尔系统的发展成为参数估计中的极大似然估计理论。
数学家波利亚(George Pólya, 1887-1985)说过:“要成为一个好的数学家,……,你必须首先是一个好的猜测家(To be a good mathematician,…, you must be a good guesser)。”历史上一流的数学家都是伟大的猜测家。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来:既然千百年来你们都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!因此高斯猜想上帝在创世纪中的旨意就是:
偏差分布导出的极大似然估计 = 算术平均值
而后高斯去找偏差密度函数 ff 以迎合这一点。即寻找这样的几率分布密度函数 ff, 使得极大似然估计正好是算术平均 θ^=x¯¯¯θ^=x¯。而高斯应用数学技巧求解这个函数ff, 高斯证实(证实不难,后续给出),全部的几率密度函数中,惟一知足这个性质的就是
瞧,正态分布的密度函数 N(0,σ2)N(0,σ2) 被高斯他老人家给解出来了!
进一步,高斯基于这个偏差分布的密度函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每一个偏差 eiei, 因为偏差服从几率分布 N(0,σ2)N(0,σ2), 则(e1,⋯,en)(e1,⋯,en) 的几率为
要使得这个几率最大,必须使得∑ni=1e2i∑i=1nei2 取最小值,这正好就是最小二乘法的要求。
高斯所拓展的最小二乘法成为了19世纪统计学的最重要成就,它在19世纪统计学的重要性就至关于18世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德1805年给出的最小二乘法描述,高斯基于偏差正态分布的最小二乘理论显然更高一筹,高斯的工做中既提出了极大似然估计的思想,又解决了偏差的几率密度分布的问题,由此咱们能够对偏差大小的影响进行统计度量了。高斯的这项工做对后世的影响极大,而正态分布也所以被冠名高斯分布。估计高斯本人当时是彻底没有意识到他的这个工做给现代数理统计学带来的深入影响。高斯在数学上的贡献特多,去世前他是要求给本身的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规做图上的杰出工做。然后世的德国钞票和钢镚上是以正态密度曲线来记念高斯,这足以说明高斯的这项工做在当代科学发展中的份量。
1七、18世纪科学界流行的作法,是尽量从某种简单明了的准则(first principle)出发进行逻辑推导。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了偏差服从正态分布,推导的形式上很是简洁优美。可是高斯给的准则在逻辑上并不足以让人彻底信服,由于算术平均的优良性当时更多的是一个经验直觉,缺少严格的理论支持。高斯的推导存在循环论证的味道:由于算术平均是优良的,推出偏差必须服从正态分布;反过来,又基于正态分布推导出最小二乘法和算术平均,来讲明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?
高斯的文章发表以后,拉普拉斯很快得知了高斯的工做。拉普拉斯看到,正态分布既能够从抛钢镚产生的序列和中生成出来,又能够被优雅的做为偏差分布定律,这难道是偶然现象?拉普拉斯不愧为几率论的大牛,他立刻将偏差的正态分布理论和中心极限定理联系起来,提出了元偏差解释。他指出若是偏差能够当作许多微小量的叠加,则根据他的中心极限定理,随机偏差理所应当是高斯分布。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。所以以这个解释为出发点,高斯的循环论证的圈子就能够打破。 估计拉普拉斯悟出这个结论以后必定想撞墙,本身辛辛苦苦寻寻觅觅了这么久的偏差分布曲线就在本身的眼皮底下,本身却终年视而不见,被高斯占了先机。
至此,偏差分布曲线的寻找尘埃落定,正态分布在偏差分析中确立了本身的地位,并在整个19世纪不断的开疆扩土,直至在统计学中鹤立鸡群,傲世其它一切几率分布;而高斯和拉普拉斯的工做,为现代统计学的发展开启了一扇大门。
在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在偏差分析中,异曲同工。正态分布被人们发现有这么好的性质,各国人民都争抢它的冠名权。由于拉普拉斯是法国人,因此当时在法国被称为拉普拉斯分布;而高斯是德国人, 因此在德国叫作高斯分布;第三中立国的人民称他为拉普拉斯-高斯分布。后来法国的大数学家庞加莱建议改用正态分布这一中立名称, 而随后统计学家卡尔·皮尔森使得这个名称被普遍接受:
Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.
—Karl Pearson (1920)
不过由于高斯在数学家中的名气实在是太大, 正态分布的桂冠仍是更多地被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布, 二者并用。
正态分布在高斯的推进下,迅速在测量偏差分析中被普遍使用,然而早期也仅限于测量偏差的分析中,其重要性远没有被天然科学和社会科学领域中的学者们所认识,那正态分布是如何从测量偏差分析的小溪,冲向天然科学和社会科学的汪洋大海的呢?
5. 曲径通幽处,禅房花木深
在介绍正态分布的后续发展以前,咱们来多讲一点数学,也许有些人会以为枯燥,不太高斯曾经说过:“数学是上帝的语言”;因此要想更加深刻的理解正态分布的美,惟有借助于上帝的语言。
造物主造物的准则每每是简单明了的,只是在纷繁芜杂的万物之中,咱们要发现并领会它并不是易事。以前提到过,1七、18世纪科学界流行的作法,是尽量从某种简单明了的准则出发做为科学探求的起点;然后来的数学家和物理学家们的研究发现,多次从一些给定的简单的准则出发, 咱们老是被引领到了正态分布的家门口,这让人感受到正态分布的美妙。
达尔文的表弟高尔顿是生物学家兼统计学家,他对正态分布很是的推崇与赞美:”我几乎未曾见过像偏差呈正态分布这么激发人们无穷想象的宇宙秩序“。当代两位伟大的几率学家列维(Paul Pierre Lévy, 1886-1971) 和卡克(Mark Kac, 1914-1984) 都曾经说过,正态分布是他们切入几率论的初恋情人,具备无穷的魅力。若是古希腊人知道正态分布,想必奥林匹斯山的神殿里会多出一个正态女神,由她来掌管世间的混沌。
要拉下正态分布的神秘面纱展示她的美丽,须要高深的几率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径第一次把咱们领到了正态分布的家门口,这条路叫作中心极限定理。而这条路上风景秀丽,许多几率学家都为之倾倒。这条路在二十世纪被几率学家们越拓越宽,成为了通往正态曲线的一条康庄大道。而数学家和物理学家们发现:条条小路通正态。著名的物理学家杰恩斯(Edwin Thompson Jaynes, 1922-1998) 在他的名著《几率论沉思录(Probability Theory: the Logic of Science)》中,描绘了四条通往正态分布的小径;曲径通幽处,禅房花木深,让咱们一块儿来欣赏一下这四条小径上的风景吧。
5.1 高斯(1809)的推导
第一条小径是高斯找到的,高斯以以下准则做为小径的出发点
偏差分布导出的极大似然估计 = 算术平均值
设真值为 θθ, x1,⋯,xnx1,⋯,xn为n次独立测量值, 每次测量的偏差为ei=xi–θei=xi–θ,假设偏差eiei的密度函数为 f(e)f(e), 则测量值的联合几率为nn个偏差的联合几率,记为
为求极大似然估计,令
整理后能够获得
令 g(x)=f′(x)f(x)g(x)=f′(x)f(x),
因为高斯假设极大似然估计的解就是算术平均 x¯x¯,把解代入上式,能够获得
(1)式中取 n=2n=2, 有
因为此时有 x1−x¯=−(x2−x¯)x1−x¯=−(x2−x¯), 而且 x1,x2x1,x2 是任意的,由此获得
(1)式中再取 n=m+1n=m+1, 而且要求 x1=⋯=xm=−x,xm+1=mxx1=⋯=xm=−x,xm+1=mx, 则有 x¯=0x¯=0, 而且
因此获得
而知足上式的惟一的连续函数就是 g(x)=cxg(x)=cx, 从而进一步能够求解出
因为f(x)f(x)是几率密度函数,把f(x)f(x) 正规化一下就获得均值为00的正态分布密度函数
N(0,σ2)N(0,σ2)。
5.2 赫歇尔(1850)和麦克斯韦(1860) 的推导
第二条小径是天文学家赫歇尔(John Frederick William Herschel, 1792-1871)和物理学家麦克斯韦(James Clerk Maxwell, 1831-1879) 发现的。 1850年,天文学家赫歇尔在对星星的位置进行测量的时候,须要考虑二维的偏差分布,为了推导这个偏差的几率密度分布
p(x,y)p(x,y),赫歇尔设置了两个准则:
这两个准则对于赫歇尔考虑的实际测量问题看起来都很合理。由第一条准则,能够获得 p(x,y)p(x,y) 应该具备以下形式
把这个函数转换为极坐标,在极坐标下的几率密度函数设为 g(r,θ)g(r,θ), 有
由第二条准则, g(r,θ)g(r,θ) 具备旋转对称性,也就是应该和 θθ 无关, 因此 g(r,θ)=g(r)g(r,θ)=g(r), 综上所述,咱们能够获得
取 y=0y=0, 获得 g(x)=f(x)f(0)g(x)=f(x)f(0), 因此上式能够转换为
令 log[f(x)f(0)]=h(x)log[f(x)f(0)]=h(x), 则有
从这个函数方程中能够解出 h(x)=ax2h(x)=ax2, 从而能够获得 f(x)f(x) 的通常形式以下
而 f(x)f(x) 就是正态分布 N(0,1/2α)−−−√N(0,1/2α), 从而 p(x,y)p(x,y) 就是标准二维正态
分布的密度函数
1860 年,伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于相似的准则推导出了气体分子运动的分布是正态分布 ρ(vx,vy,vz)∝exp{−α(v2x+v2y+v2z)}ρ(vx,vy,vz)∝exp{−α(vx2+vy2+vz2)}。这就是著名的麦克斯韦分子速率分布定律。你们还记得咱们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?
因此这个分布实际上是三个正态分布的乘积, 你的物理老师是否告诉过你其实这个分布就是三维正态分布?
赫歇尔-麦克斯韦推导的神妙之处在于,没有利用任何几率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔奖物理学家费曼(Richard Feymann,1918-1988) 每次看到一个有 ππ的数学公式的时候,就会问:圆在哪里?这个推导中使用到了 x2+y2x2+y2, 也就是告诉咱们正态分布密度公式中有个ππ, 其根源在于二维正态分布中的等高线刚好是个圆。
5.3 兰登(1941)的推导
第三条道是一位电气工程师兰登(Vernon D. Landon)给出的。1941 年, 兰登研究通讯电路中的噪声电压,经过分析经验数据他发现噪声电压的分布模式很类似,不一样的是分布的层级,而这个层级可使用方差 σ2σ2 来刻画。所以他推理认为噪声电压的分布密度函数形式是 p(x;σ2)p(x;σ2)。假设原来的电压为X, 累加了一个相对其方差 σσ而言很微小的偏差扰动 ϵϵ, ϵϵ 的几率密度是 q(e)q(e), 那么新的噪声电压是 X′=X+ϵX′=X+ϵ。 兰登提出了以下的准则
用数学的语言描述: 若是
则有
如今咱们来推导函数p(x;σ2)p(x;σ2) 应该长成啥样。按照两个随机变量和的分布的计算方式, X′X′ 的分布密度函数将是 XX 的分布密度函数和 ϵϵ的分布密度函数的卷积,即有
把 p(x′−e;σ2)p(x′−e;σ2) 在x′x′处作泰勒级数展开(为了方便,展开后把自变量由 x′x′ 替换为 xx), 上式能够展开为
将p(x;σ2)p(x;σ2)简记为pp,则有
对于微小的随机扰动 ϵϵ, 咱们认为他取正值或者负值是对称的,因此 ϵ¯=0ϵ¯=0。因此有
对于新的噪声电压 X′=X+ϵX′=X+ϵ, 方差由σ2σ2 增长为 σ2+var(ϵ)=σ2+ϵ2¯¯¯¯σ2+var(ϵ)=σ2+ϵ2¯,因此按照兰登的分布密度函数模式不变的假设, 新的噪声电压的分布密度函数应该为 f(x)=p(x;σ2+ϵ2¯¯¯¯)f(x)=p(x;σ2+ϵ2¯)。把p(x;σ2+ϵ2¯¯¯¯)p(x;σ2+ϵ2¯) 在 σ2σ2 处作泰勒级数展开,获得
比较 (2) 和 (3) 这两个式子,能够获得以下偏微分方程
而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就获得
又一次,咱们推导出了正态分布!
杰恩斯对于这个推导的评价很高,认为兰登 的推导本质上给出了天然界的噪音造成过程。他指出这个推导这基本上就是中心极限定理的增量式版本,相比于中心极限定理是一次性累加全部的因素,兰登 的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,咱们看到,正态分布具备至关好的稳定性;只要数据中正态的模式已经造成,他就容易继续保持正态分布,不管外部累加的随机噪声 q(e)q(e) 是什么分布,正态分布就像一个黑洞同样把这个累加噪声吃掉。
5.4 基于最大熵的推导
还有一条小径是基于最大熵原理的, 物理学家杰恩斯在最大熵原理上有很是重要的贡献,他在《几率论沉思录》里面对这个方法有描述和证实,没有提到发现者,我不确认这条道的发现者是不是杰恩斯本人。
熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon, 1916-2001)把这个概念引入了信息论,学习机器学习的同窗们都知道目前机器学习中有一个很是好用的分类算法叫最大熵分类器。要想把熵和最大熵的前因后果说清楚可不容易,不过这条道的风景是至关独特的,杰恩斯对这条道也是偏心有加。
对于一个几率分布 p(x)p(x), 咱们定义他的熵为
若是给定一个分布密度函数 p(x)p(x) 的均值 μμ 和方差 σ2σ2(给定均值和方差这个条件,也能够描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的), 则在全部知足这两个限制的几率分布中,熵最大的几率分布 p(x|μ,σ2)p(x|μ,σ2) 就是正态分布 N(μ,σ2)N(μ,σ2)。
这个结论的推导数学上稍微有点复杂,不过若是已经猜到了给定限制条件下最大熵的分布是正态分布,要证实这个猜想倒是很简单的,证实的思路以下。
考虑两个几率分布 p(x)p(x)和q(x)q(x),使用不等式 logx≤(x−1)logx≤(x−1), 得
因而
因此
熟悉信息论的同窗都知道,这个式子是信息论中的很著名的结论:一个几率分布的熵老是小于相对熵。上式要取等号当且仅当q(x)=p(x)q(x)=p(x)。
对于 p(x)p(x), 在给定的均值 μμ 和方差 σ2σ2下, 咱们取q(x)=N(μ,σ2)q(x)=N(μ,σ2), 则能够获得
因为 p(x)p(x) 的均值方差有以下限制
因而
而当p(x)=N(μ,σ2)p(x)=N(μ,σ2)的时候,上式能够取到等号,这就证实告终论。
杰恩斯显然对正态分布具备这样的性质极为赞扬,由于这从信息论的角度证实了正态分布的优良性。而咱们能够看到,正态分布熵的大小,取决于方差的大小。 这也容易理解, 由于正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应几率分布中的信息量,显然和密度函数的形状相关。
好的,风景欣赏暂时告一段落。所谓“横当作岭侧成峰,远近高低各不一样”,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来做为这个小节的结束:
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics. (物理学家认为高斯分布已经在数学上获得证实,而数学家则认为高斯分布在物理试验中得到确认。)
— Henri Poincaré