关于几率分布理论的原理分析的一些讨论,以及经典几率分布的应用场景,以及几率统计其在工程实践中的应用

1. 随机变量定义

0x1:为何要引入随机变量这个数学概念

在早期的古典几率理论研究中,人们基于随机试验的样本空间去研究随机事件,也发展出了很是多辉煌的理论,包括著名的贝叶斯估计在内。html

可是随着研究的不断深刻,遇到问题的不断复杂化,科学家们发现面对的问题也不只仅是抛色子,口袋里摸球、抛硬币伯努利试验这样的简单问题,而是更加复杂的问题,例如python

  • 多个随机试验的组合问题:例如考虑n个伯努利随机试验中某个事件发生次数的随机变量
  • 非实数型的样本空间:例如气候分析、水文模拟与预测等复杂问题,显然,这个时候样本空间就不必定都是数集了

继续使用随机事件样本空间这种集合论数学工具进行问题分析和定量研究遇到了愈来愈多的困难。算法

为了能对更复杂的问题进行抽象建模,进行定量的几率公式化处理,所以,经过引入随机变量,将样本空间这个集合概念转化为一个无量纲的数集(函数概念),使得能统一地处理各类随机现象。安全

同时由于随机变量本质是函数范畴体系内的定义,所以还能够借助函数分析相关的数学工具展开对随机事件的定量分析,这使得几率论的发展又跨了一个大的台阶。网络

须要注意的是,对于随机变量来讲,样本空间中的样本不必定是等概的。在实际工程中,非等概模型才是更加广泛和通常的状况,随机事件的样本集空间中不一样元素的发生几率通常不可能都是等概的。等概摡型只是离散型随机变量里一个特例。app

0x2:随机变量的抽象定义

在随机试验E中,Ω是相应的样本空间,若是对Ω中的每个样本点w,有惟一一个实数 X(w) 与之对应,那么就把这个定义域为Ω的单值实值函数 X=X(w) 称为(一维)随机变量。框架

函数 X(w) 的的定义域对应于随机变量的样本空间,记做,固然,随机事件只会在一些区间内有几率的定义,在其余区间上几率为0。机器学习

站在试验前的立场看,咱们不知道试验结果将出现样本空间Ω中的哪一个样本点,即不知道随机变量将会取中的哪个数。从这个意义上说,随机变量的取值是随机的。函数

几率论的一个基本任务就是研究随机变量取值的统计规律性,而引入几率分布函数的目的也是为了更好地研究统计规律的数学特性。工具

0x3:随机变量的分类

从严格理论定义上来看,随机变量可分为:

  • 离散型随机变量:若是1个随机变量只可能取有限个或可列无限个值(即它的值域是1个有限集或可列无限集),那么便称这个随机变量为(一维)离散型随机变量。
  • 非离散型随机变量:连续型随机变量的取值充满了数轴上的一个区间(或某几个区间的并),在这个区间里有无穷不可列个实数,所以当咱们描述连续型随机变量时,用来描述离散型随机变量的分布律就无法继续使用,须要改用几率密度函数来表示。

在非离散型随机变量中,连续型随机变量是最多见也是占比最多的,咱们本文主要讨论连续型随机变量。但读者要明白的是,并非只有离散和连续型随机变量这两种。

Relevant Link:

《几率论与数理统计》同济大学数学系 第二章 - 第一节

 

2. 随机变量的几率密度与几率分布

0x1:为何要研究随机变量的几率密度与几率分布PDF

1. 现实世界不是肯定性的,而是几率性的 - 上帝会掷色子

现实世界中大量复杂问题其状态受到大量内在和外在因素的影响,想要完全掌握这类事物的内在规律并对将来可能发生的状态变换做出预测,就须要数据科学家经过数据分析、几率建模等方式,寻找一个或一组几率分布公式。

那为何必定是几率分布函数呢?而不能是一个像爱因斯坦质能方程那样的精确性的映射函数呢?

理解这个问题,须要回望一些历史,自从混沌理论和非线性动力学理论问世以来,动力学系统“内在随机性”的存在,使得肯定论再也不占统治地位,它与随机方法论之间的鸿沟已经逐步填补。从辨证惟物天然观来看,肯定论的数学模型只是纷繁复杂的大天然现象因果规律的一种理想化描述。在现实世界中,“量”的方面的数学的无穷性,比起“质”的方面的无涯无尽性来讲,是极为粗浅的。不管怎样复杂的方程式都不多是实际现象的无限复杂性的等价反映,它们充其量不过是相对精确或相对逼真地描述了现象,而不是现象自己的所有写照。

接下来的问题就是,如何找到这种“几率分布函数”呢?或者说如何找到这个“上帝”呢?这就是接下来要谈的几率密度估计。 

2. 几率密度估计 - 寻找几率分布函数的方法

对于给定的一个数据集合,咱们认为这个数据集合来自于某个随机变量,而且这个随机变量具备某种几率分布P(X)。找到这个几率分布P(X)的过程叫作密度估计(density estimation)。

须要注意的是密度估计问题是一个很困难的问题,由于世界上的几率密度函数不可胜数,可以近似拟合几率密度函数也是如此之多。选择一个合适的P(X)是模型选择问题,在机器学习领域常常碰见。

固然,这仅仅是生成式模型学派须要头疼的问题,若是忽略这些细节,经过设计深度神经网络获得一个判别式模型,只要关心最终的结果效果是否好,泛化能力是否强便可。

0x2:离散型随机变量的分布律与几率分布 

1. 离散随机变量的几率(质量)函数(probability density function, PDF)/分布律

要掌握一个离散型随机变量取值的统计规律(即分布),除了必须知道它的样本空间值域外,还须要知道它取各个可能值的几率,其实就是函数分析中的定义域和值域分析的概念。

设随机变量X的值域为,对于每一个 i = 1,2,....,X的取值为ai的几率为:

按照几率的定义与性质,p1,p2,.... 须要知足下列性质:

  • 非负性:
  • 样本空间完备性:

咱们称为随机变量 X 的几率(质量)函数分布律

2. 离散随机变量的几率分布函数

通常地,对一个随机事件E来讲,对样本空间中任意一个子集合S,有: 

 

上述计算公式本质上由几率的加法公式推出,由于诸事件{X =ai}(i=1,2,...)是两两互不相容的。

离散随机变量的分布函数就是离散分布律在某个样本集区间上的累加,只是这个样本区间是一个形如[-∞,Smax]的区间。

设X是一个随机变量,对于任意实数x,称函数为随机变量X的分布函数。

对任意的两个实数,有

所以,只要已知X的分布函数,就能够知道X落在任一区间 (a,b) 内的几率,能够看到,分布函数能够完整的描述一个随机变量的统计规律性。

相比于几率密度,分布函数度量的是区间的累计几率,是一个事件集合的整体发生几率。 

能够看到,几率分布函数本质上是几率密度函数的积分,因此也叫累计几率函数(cumulative distribution function,CDF),也能够简称几率分布函数

反过来,几率密度函数也是几率分布函数的导数。

3. 离散随机变量几率分布函数性质

咱们经过一个例子来讲明离散随机变量几率分布函数的性质。

设一个盒子中装有10个球,其中:

  • 5个球上标有数字1
  • 3个球上标有数字2
  • 2个球上标有数字3

从中任取一球,记随机变量X表示为“取得的球上标有的数字”,求X的分布函数F(x)。

咱们先来求其离散分布律,知道离散分布律后就能够天然获得分布函数。

根据题意可知,随机变量X可取 1,2,3,这个问题相对比较简单,摸球是一个等概事件,所以由古典概型的计算公式,可知对应的随机事件的几率值分别为:

  • 取到数字1的球:0.5
  • 取到数字2的球:0.3
  • 取到数字3的球:0.2

接下来,分布函数的定义为F(x) = P(X <= x),所以有:

  • x < 1:P(X <= x)= 0
  • 1 <= x < 2:P(X <= x)= P(X = 1)= 0.5
  • 2 <= x < 3:P(X <= x)= P(X = 1)+ P(X = 2)= 0.5 + 0.3 = 0.8
  • x >= 3:P(X <= x)= P(X = 1)+ P(X = 2)+ P(X = 3)= 0.5 + 0.3 + 0.2 = 1

F(x)的图形以下图所示,python生成代码为:

# -*- coding: utf-8 -*-

from pylab import *


if __name__ == '__main__':
    x = linspace(-2,8,200)

    y = []
    for i in x:
        if i<1:
            y.append(0.)
        elif (i>=1 and i<2):
            y.append(0.5)
        elif (i>=2 and i<3):
            y.append(0.8)
        else:
            y.append(1.)
     
     print y

    plot(x,y),show()

它是一条阶梯型的曲线,在X的每一个可能取值处 1,2,3 处有连续的阶跃点,每次跳跃的高度就是X在该取值点的累计几率。

具体来讲,任一分布函数F(x)有以下性质:

  • 0 ≤ F(x) ≤ 1,
  • F(x)是单调不减的,即当x1 <x2 时,F(x1)≤F(x2)
  • F(x) 在 (-∞,∞) 上每一点处至少右连续 

4. 常见离散型随机变量的几率密度函数(分布律)

因为几率分布函数刻画了一个离散型随机变量取值的统计规律性,所以,物理世界中存在的几率分布函数能够说是无穷无尽的。科学共同体内的科学家根据本身的专业领域知识,寻找并创建了不一样的几率解释模型,对本专业的实际物理现象进行解释以及预测。

笔者在这章会讨论一些常见的离散型几率分布函数,并简单讨论其在工程中的应用,对于在更复杂工业场景中几率分布函数的应用的讨论笔者会放在以后的章节中。

1)二项分布

1.1)二项分布数学定义

二项分布考察的是屡次原子随机事件总体呈现出的统计几率特征。

设单次随机试验为伯努利试验(实验结果只有2种对立的可能,即样本空间只有2个元素),在n重独立伯努利试验中,设随机变量X表示n次试验中事件A发生的次数,因此有,X的几率密度函数(分布律)为:

称这个随机变量X服从参数为n,p的二项分布,记做, 其 中 0 < p < 1。二项分布函数的形态彻底由(n,p)两个参数决定。

笔者认为,二项分布抽象的是这样一类事物:某系统的时域或空域状态由一系列的子步骤组成,每一个子步骤都符合一个特定的二元对立的几率密度函数(即只有两种可能,且发生的几率固定),咱们设这两个对立事件为事件A和事件B。如今假设系统在时域或空域上通过了n步,二项分布须要评估的是在这n步中,事件A和事件B分别发生了多少次,即这两个对立事件对最终系统状态的贡献度分别是多少。二项分布评估的是某系统达到某种状态时,各个基础随机事件的贡献比,不考虑内部过程,只看结果。

1.2)二项分布的函数分析意义

二项分布密度函数(分布律)是离散型分布,几率密度直方图是跃阶式的。

咱们能够从二项式的平方公式分解的角度来看二项分布的分布律。

例如,p=q=1/2,各项的几率可写做:

上式就是二项分布分布律的累加式。

设p表示事件发生,q表示事件未发生。

当p=q时:几率密度直方图是对称的,例以下面的杨辉三角

当p≠q时:直方图呈偏态:

p<q:直方图朝右边倾斜,表示p(事件发生)的密度较低,在n次伯努利实验中,整体结果更倾向于更少的p(事件发生)次数。

p>q:直方图朝左边倾斜,相反

若是n很大(当p<q且np≥5,或p>q且nq≥5),即便p≠q,偏态逐渐下降,最终近似等于正态分布,二项分布的极限分布为正态分布,能够用正态分布的几率做为近似值。关于这个结论的证实,咱们在后面讨论正态分布的时候会详细说明。

1.3)二项分布的应用条件
  • 各观察单位只能具备相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料
  • 已知发生某一结果(阳性)的几率为π,其对立结果的几率为1-π,实际工做中要求π是从大量观察中得到比较稳定的数值
  • n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每一个观察单位的观察结果不会影响到其余观察单位的结果。如要求疾病无传染性、无家族性等
1.4)二项分布的简单案例

题目为:从积累的资料看,某条流水线生产的产品中,一级品率为90%,今从某天生产的1000件产品中,随机地抽取20件做检查。试求恰有18件一级品的几率。

题目看起来文字挺多,其实无用的信息不少,咱们抽象为随机事件,能够归纳为:

设产品抽检结果为随机试验E,抽检结果为离散随机事件X,样本空间为{合格、不合格},随机事件X的分布律为P(X=合格) = 0.9,P(X=不合格) = 0.1。如今基于随机试验E进行n重伯努利实验Y,即X~B(n,p) = X~B(20,0.9),并求P(Y=18)的几率值。

根据二项分布几率公式可得:

 

2)超几何分布 

2.1)超几何分布的物理意义

要讨论超几何分布的物理意义,首先须要先回顾下二项分布的物理意义,咱们能够从不一样的角度来看二项分布:

  • 抽样实验角度:二项分布是创建在有放回抽样的基础上的,也就是抽出一个样品测量或处理完后再放回去,而后抽下一个
  • 信号冲击响应系统:二项分布表明的是时移不变性的信号,也就是说,随着时间的进行(随机试验的进行),信息系统自己的性质(几率密度)不会发生变化

如今咱们将问题复杂化,即进行无放回抽样(几率密度随着时移而改变)的随机试验,这时,传统的二项分布没法处理这种状况。

超几何分布就是这种背景下被提出,用来计算在无放回抽样状况下,几率密度和几率分布的建模问题。

2.2)超几何分布数学公式

设随机变量X,假定在 N 件产品中有 M 件不合格品,即这批产品的不合格率 p= M/N。从这批产品中随机地抽取n件做检查,发现有X件是不合格品,则 X 的几率密度函数为

则称这个随机变量X服从参数为(N,M,n)的超几何分布

这种抽样检查方法实质上等价于无放回抽样,若是采用有放回抽样的检查方法,那么,超几何分布会退化为二项分布,即当 M = Np 时,有:

在实际的工程开发中,当整体的容量N不大时,要用超几何分布来计算,若是N很大而n很小(N ≥10n),无论是不是放回抽样,均可以用二项分布来近似计算,也就是能够将无放回抽样近似看出有放回抽样,由于当N远大于n时,不放回致使几率密度函数的变化小到能够忽略不计,这种近似转化的思想在数学里很常见,在面对复杂问题的时候尤为有用。

3)泊松分布

3.1)泊松分布数学公式

泊松分布是1837年法国数学家泊松(Poisson,1781-1840年)首次提出的。

设随机变量X的取值为0,1,....,n,相应的分布律为:

称这个随机变量X服从参数为λ的泊松分布,记做X ~ P (λ),其中,λ > 0。 

公式自己很简单,咋一看是一个彻底新的几率公式,但其实泊松分布是二项分布在大数定律下的近似等价,是大数定律的最好体现(小数世界的随机性和大数据世界的统计规律性),咱们接下来一块儿推导分析下。

3.2)泊松定理推导分析

让咱们以某段时间内发生的交通事故次数为例。咱们把这段时间记为[0,1),取一个很大的天然数n(大数定理),将时间段等分为n段,记每段的区间为[公式]=[[公式],[公式])。

根据试验后验统计,在整个时间区间内共发生λ起事件,所以当n足够大时,能够假定在每段小区间内,发生一次事故的几率为λ/n。又由于n很大,因此能够假定在每段小区间内至多发生一次事故,所以就有p = λ/n,np = λ。

同时,每段小区间内是否发生事故是相互独立的。

以上条件说明该事件知足二项分布的成立条件,所以能够用二项分布进行推导。

设随机变量X为在 [0,1)时间段内发生事故的总次数,则有:

X~B(n,λ/n),P(X=i)=

根据假定,令n[公式],则有以下近似等价式:

  • [公式]/[公式]=[公式]=[公式]
  • [公式]=[公式]=[公式][公式]:级数求和公式。

代入上面二项分布公式,二项分布几率分布表达式即化为泊松分布几率分布表达式

能够看到,相比于二项分布,泊松分布的计算量更小,在超大数据的状况下,每每采用泊松分布来近似等价二项分布的计算。

笔者本身的观点认为,泊松分布和二项分布本质区别就是先天经验先验和后天试验经验的不一样视角的体现,具体来讲就是:

  • 在小数世界中,实验次数较少,咱们主要依靠先天经验来设置先验几率做为随机事件的几率,这就是二项分布
  • 在大数世界中,实验次数较多,咱们能够更多地依靠后天试验的后验结果做为随机事件的几率,这就是泊松分布
3.3)泊松分布的简单应用

某台仪器,由1000个元件装配而成,根据大量历史经验,每一元件在一年工做期间发生故障的几率为0.002,且各元件之间相互独立,求在一年内有2个元件发生故障的几率。

设X表示“发生故障的元件数”,则X~B(1000,0.002)。

因为n=1000较大,p=0.002较小,且np=2大小适中,因此可用泊松分布来近似计算该二项分布的值

 

Relevant Link:

https://zhuanlan.zhihu.com/p/26433704

4)几何分布

4.1)几何分布数学定义

在伯努利试验中,记每次试验中A事件发生的几率P(A) = p(0<p<1),设随机变量X表示A事件首次出现时已经试验的次数,则X的的取值为1,2,....,n,....,对应的分布律为:

称这个随机变量 X 服从参数为p的几何分布,记为X~Ge(p)。

4.2)几何分布的无记忆性

由几何分布的几率函数获得:

所以有:

这个推导过程反映了几何分布的一种特性,即无记忆性

 

0x3:连续型随机变量的几率密度函数与几率分布 

1. 连续型随机变量几率密度函数

设E是随机试验,Ω是相应的样本空间,X是Ω上的随机变量,F(x)是X的分布函数,若存在非负函数f(x)使得:

则称X为(一维)连续型随机变量,f(x)称为X的几率密度函数。

2. 连续型随机变量的几率分布函数

密度函数f(x)与分布函数F(x)之间的关系以下图所示.如今,F(x) = P (X ∈ (-∞,x]),即f(x)在区间(-∞,x]上的积分。

3. 连续型随机变量的性质

连续型随机变量具备下列性质:

  • F(x)是连续函数,且当f(x)在x=x0 处连续时,F′(x0)=f(x0)
  • 对任意一个常数c,-∞ < c < ∞,P(X = c) = 0,须要注意的是,这个性质对离散型随机变量是不成立的,偏偏相反,离散型随机变量计算的就是“点点几率”。
  • 对任意两个常数a,b,-∞ < a < b < ∞, 

4. 连续型随机变量几率密度和分布函数性质

按照连续型随机变量分布函数的特征性质,连续型随机变量密度函数必须知足下列两个条件:

  • f(x) ≥ 0,-∞ < x < ∞ 

这两个条件刻画了密度函数的特征性质,即若是某个实值函数f(x)具备这两条性质,那么,它一定是某个连续型随机变量的密度函数,理论上几率密度函数是无限的。  

例如,当f1(x),f2(x)都是几率密度函数时,只要c1,c2 ≥0,c1+c2 =1。则c1f1(x)+c2f2(x)也是一个密度函数,由于不难验证它是知足上述两个条件的。这代表几率密度函数是能够进行线性组合的,这大大增强了使用几率分布函数对物理世界的具体现象进行建模分析的能力。

5. 常见连续型随机变量的几率密度函数

1)均匀分布

1.1)均匀分布数学定义

设X为随机变量,对任意的两个实数a,b(a<b),几率密度函数为:

则称随机变量X服从区间(a,b)上的均匀分布,记为X~U(a,b)。

密度函数以下:

1.2)均匀分布几率分布函数

若X~U(a,b),则相应的几率分布函数为:

下图分别展现了均匀分布的几率密度函数与几率分布函数(导数与积分的关系):

1.3)均匀分布的实际案例

2)指数分布

2.1)指数分布的几率密度与几率分布函数公式

若是随机变量 X 的密度函数为:

则称随机变量X服从参数为λ的指数分布,记为X~E(λ)。

相应的分布函数为:

密度函数和分布函数的函数图以下:

2.2)指数分布的无记忆性

由于,因此有下式:

所以可证,指数型随机变量知足无记忆性特征:

即条件几率值只与持续时间t有关,与起始点s无关。

2.3)指数分布和泊松分布公式的互相推导

一言以蔽之:泊松分布和指数分布都是评估单位时间内n次伯努利实验的统计几率性质的一种几率分布,可是它们的度量角度不一样。在一段时间内,事件出现的次数问题,就是泊松过程;在一段时间内,两件事件发生之间要等待的时间问题,就是指数分布

接下来咱们经过泊松几率公式,推导获得指数分布的几率密度函数。

设随机变量 [公式] 表示在n重伯努利实验中,两次事件出现之间的时间间隔

[公式]

咱们先计算 [公式] 的几率,其对应的泊松分布试验结果是,在时间 [公式] 内,事件A并无出现。

换种说法是在 [公式] 时间段内,事件A出现0次。在一段时间内,事件出现的次数问题,就是泊松过程则有:

[公式],因此其反事件几率分布函数为:

[公式]

获得了几率分布函数,求其积分,获得其密度函数

这就是参数为λ的指数分布。

2.4)指数分布的函数性质

指数分布中的λ表明整个区间中总共发生的事件数,若是λ越大,也就是说区间内发生的总事件数越多,那么两个事件发生之间的时间间隔必然越短。当λ较小的时候,例如λ=1,也就是说区间内总共只发生1次事件,那么两个事件发生间隔时间大于1的可能性就很大(下图是指数分布的几率密度函数的图像,对应的几率是曲线下面积):

2.5)指数分布和泊松分布的数学指望对比

同一个n重伯努利实验,他们的指望分别为:

[公式]

[公式]

能够看到,它们二者是倒数关系:区间内某事件发生的次数越多天然间隔时间越短,区间内某事件发生的次数越少天然间隔时间越长。

从某种程度上能够说,泊松分布和指数分布是同一个事物的正反两面。

2.6)指数分布和几何分布的互相推导

指数分布经常被用来描述电器产品或者生物的寿命等现象。

抽象来讲,若是x服从指数分布,那么[x]就服从几何分布。[x]是x取整的意思。

简单来讲,每一秒钟,电器坏的寿命都是相同的;每通过一秒,至关于扔了一次骰子,正面坏,反面不坏;直到扔出正面,这就是几何分布。

其实在几率分布函数中,这种互相推导转换的关系是很是广泛的,祭出一张很是经典图,有兴趣的读者朋友能够用草稿纸演算一遍。

Relevant Link:

https://www.zhihu.com/question/54525571 
https://www.zhihu.com/question/24796044

3)正态分布

正态分布是几率统计中很是重要的一种分布,是高斯(Gauss,1777-1855年)在研究偏差理论时首先用正态分布来刻画偏差的分布,因此正态分布又叫高斯分布。

3.1)正态分布数学定义

设X为随机变量,几率密度函数为:   

那么,称这个随机变量X服从参数为μ,σ 的正态分布(或高斯(Gaus)分布),记做X ~ N(μ,σ),其中,-∞ < μ < ∞ ,σ > 0。

服从正态分布的随机变量统称为正态随机变量

几率密度图和几率分布图以下:

3.2)正态分布的函数性质

正态分布几率密度函数有以下性质:

  • f(x) 关于x = μ对称,当x=μ时,f(x) 取到最大值
  • 固定σ,改变μ的值,则曲线沿x轴平移,但不改变其形状,因此参数μ又称为位置参数
  • 固定μ,改变σ的值,则曲线的位置不变,但随着σ的值越小,曲线越陡峭,因此参数σ又称为尺度参数

3.3)正态分布的应用场景

正态分布在理论上与实际应用中都是一个极其重要的分布,高斯在研究偏差理论时曾用它来刻画偏差的分布。

经验代表,当一个变量受到大量微小的、独立的随机 因素影响时,这个变量通常服从或近似服从正态分布。

例如,某地区男性成年人的身高、自动机床生产的产品尺寸、材料的断裂强度、某地区的年降雨量,等等。

4)sigmoid几率函数

设随机变量为Z,则sigmoid是关于随机变量Z的几率函数,它的几率分布形式为:

函数图像以下:

能够看到,sigmoid不只符合几率函数的基本性质,同时还有其余的函数性质,这使得sigmoid适合在机器学习中用做激活函数,将线性层的输出转化为几率值。

能够看到在趋于正无穷或负无穷时,函数趋近平滑状态,sigmoid函数由于输出范围(0,1),因此二分类的几率经常用这个函数,事实上logisti回归采用这个函数不少教程也说了如下几个优势

  • 值域在0和1之间
  • 函数具备很是好的对称性
  • 函数对输入超过必定范围就会不敏感,对极端事件具有很好的鲁棒性

关于sigmoid损失函数的讨论,能够参阅这篇文章

Relevant Link:

https://zlearning.netlify.com/computer/mlapp/mlappch2dot3-some-probability-distributions
https://www.cnblogs.com/LittleHann/p/10498579.html#_label2 

 

3. 经典几率分布函数在工程分析中的做用

0x1:二项分布在心理学和教育领域中关于机遇问题的判断研究

所谓机遇问题,即指在实验或调查中,实验结果多是受试者猜想形成的。好比,选择题中随便选择一个选项,对错判断中随便判断一个结果。

凡此类问题,教育工做者和研究人员的目标是:欲区分由猜想而形成的结果与真实的结果之间的界限区间,即在一张试卷中(多个独立题目组成),答对多少题及以上能够能够大几率证实受试者不是在随机蒙题

特别要注意的是,在几率论中没有100%肯定的结论,一切都是几率区间,按照假设检验的理论观点来从新阐述上面这句话,应该是:寻找猜想而形成的结果与真实结果之间的几率区间下界,即至少答对多少题才能达到至少95%的几率,与此同时,依然存在5%的置信区间(5%是经常使用的显著性检验的几率阈值),在这个5%几率区间中,真实状况与推测结论相反

下面咱们举具体例子,应用二项分布来解决机遇问题的判断。

已知有正误题10题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜想因素?
分析:对于蒙题的受试者来讲,答对和打错的几率相同:  
同时,  ,故此二项分布接近正态分布:
根据正态分布几率,当Z=1.645时,该点如下包含了全体的95%。若是用原分数表示,则为
它的意义是,彻底凭猜想,10题中猜对8题如下的可能性为95%,猜对八、九、10题的几率只5%。
所以能够推论说,答对8题以上者不是凭猜想,而是会答。
但应该明确:做此结论,也仍然有犯错误的可能,即那些彻底靠猜想的人也有5%的可能性答对八、九、10道题。

Relevant Link:

https://baike.baidu.com/item/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83

0x2:二项分布在工厂零件供应质量抽检评估中的做用

1. 问题场景说明

在不少工厂里,一般都会跟零件供应商约定供货合格率,并对每批供货进行抽检,就是所谓的IQC。

如今摆在面前的问题是这样的,实际的货物可能成千上万,你不可能逐一检测效果,并且像食品这种商品自己仍是不能检测的,你难道要亲自吃一口看坏没坏?那咱们怎么经过抽检的方法来判断这批货物的合格率有多高呢?

一个简单的想法是:随机从这批货物中抽取100个,逐一检测是不是次品,假如出现了5个次品,则这批货物的次品率就是95%。

如今问题来了,这么作合理吗?

显然不合理,反对的理由很简单,尽管抽样是随机的,可是单次的实验并不能表明真实状况,换言之,不具有几率统计性。

改进一下,咱们多作几个实验,每次仍是随机抽100个,连作10次,将10次的总次品数加起来取平均。这样作比以前的作法稍微更合理一些了,其内核也蕴含了一些几率思惟,可是依然不够合理!由于能够问10次实验就够了吗?10次实验一样存在必定的抽样不均匀的几率,那接下来怎么办呢?继续扩大实验,100次、1000次、100000次?那多大的实验次数算合理呢?怎么量化的去评估所谓的合理性呢?

2. 经过二项分布数学模型正确评估和决策该问题 - 假设检验

如今咱们将问题归入二项分布的几率统计范畴内,使用假设检验的理论框架来解决这个问题。

整体思路是这样的:咱们将次品抽检会出现的结果抽象为一个随机事件,先假设一个随机试验几率(即供应商承诺的合格率),这就是假设检验中的假设过程,而后进行n次伯努利实验,并根据实际的n次伯努利实验结果。

如今假设供货商承诺的合格率为97%,咱们抽检10个货物进行次品检验,检验结果后发现了x个次品。

则有p=0.97,n=10,X~B(n,p) = X(10,0.97),知道了几率分布的参数,实际上咱们也就获得了几率密度函数P(X=x)。

接下来就是根据实际的试验结果,查询其对应在几率密度函数上的几率值,进行置信检验。

1)x = 1:发现1个次品

P(X=1) = 10 * 0.97^9 * 0.03 = 0.228

计算结果代表按照咱们的假设几率,在10次抽检中出现1个次品的几率为0.228,也就是说咱们有22.8%的置信度能够相信这个假设几率,这就是假设检验中的检验过程

通常来讲,22.%的几率不算低了,在实际的工业实践中,工厂通常会选择接受这样的检验结果,即承认供货商这批货的合格率是97%。

2)x = 2:发现2个次品

咱们继续讨论实验结果, 那抽出2个不合格的呢?一样能够算出

P(X=2) = 45 * 0.97^8 * 0.03^2 = 0.032

能够看到,几率很是小,只有3.2%,继续推广,抽出超过2个以上不合格品的几率会更小。所以决策者应该拒绝该假设,即不承认供货商提供了97%的合格率。

3. 根据假设检验获得决策依据

所以若是10个样品中有2个或以上的不合格品,则整批的零件合格率确定达不到97%,能够整批退货。

推而广之,若是约定的合格率是99.5%,则出现0个、1个、2个不合格品的几率分别为0.95一、0.047八、0.001,如此10个只要抽出1个不合格品就能够整批退货了。这里省略计算过程。

4. 如何评估和选择适合本身的业务场景的抽检方案

接下来咱们继续思考前面提的一个问题,到底应该抽多少样本合适呢?每次抽100个?每次抽10000个?显然抽的越多表明性越好,可是显然咱们不可能无限地增长,抽样是有经济损失的,咱们须要找一个损失与收益能平衡最大化的标准。如何用几率的思惟量化地评估这个数字呢?咱们接下来讨论这个问题。

假设你与供应商约定的接收合格率是99%,即AQL(接收质量限)=0.01,本批的总数量是1000只,如今咱们如今准备了3种抽检方案:

  • 国际方案GB/T2828标准:抽样量为80,Ac=2,即抽到2个及如下不合格品可接收该批,抽到3个及以上不合格品则拒绝接收
  • 方案一:限于财力,稍微少抽样一些,抽20个,不合格品为0接收,大于0退回
  • 方案二:财力还能够,多抽样一些,抽50个,不合格品不超过1则接收,大于1则退回

接下来,咱们开始抽检,接受者根据抽检结果进行决策的结果只有两个:

  • 实际批合格率低于约定合格率,仍被接收:接受者承担的风险属于使用者风险
  • 实际合格率高于约定,仍然存在拒收的风险,虽然这个风险并不大:生产者承担的这一类的风险叫作生产者风险

若是这批来料合格率只有98%,按照以上抽检方案,接收的几率分别为:

  • 国际方案GB/T2828标准:0.784419
  • 方案一:0.6676
  • 方案二:0.7357

若是这批来料合格率高于约定合格率,如99.5%,拒收的几率分别为:

  • 国际方案GB/T2828标准:0.007712
  • 方案一:0.09539
  • 方案二:0.026132

咋一看这三种方案性能差很少,在面对“实际合格率低于承诺”和“实际合格率高于承诺”这两种状况时,都有较大的几率能支持决策者做出正确的决策。

要解决这个问题,须要借助函数分析的思惟方式,即不一样的抽检方法底层是不一样的二项分布几率密度函数,不一样的几率密度函数具备不一样的函数分布于函数性质。咱们不单是评估各个抽检方案在单个点上的表现,而是要看各个抽检方案在整个可能样本空间上的总体表现。

每一种方案的两类风险,均可以画出OC曲线。以下:

图中横坐标为实际的批不合格率,纵坐标为接收几率,曲线下方为接收几率,上方为拒收几率。

能够看出即便来料不合格率远高于约定,接收的几率仍是很大的。

黄色的矩形框称为理想曲线,理想的状况下,批不合格率低于约定确定接收,而超过约定则确定拒收,但这种理想曲线是不可能达到的,只能尽量接近。

下面咱们再看看三种抽样方案的OC曲线之间的对比。

能够看到,国标方案的降低趋势要比另外两种要快,更接近理想曲线。

笔者认为,几率论不是给人100%精确的答案的,相反,几率论中全部结果都是一个几率分布,一切皆有可能。几率论的主要目的是给出一个事物结果的发生几率区间,以及置信度,给决策者一个清晰明确的决策依据,至于最终如何决策,还须要决策者本身结合自身具体状况而定

Relevant Link:

https://zhuanlan.zhihu.com/p/24692791

 

4. 在各个学科领域里几率分布函数的应用于变化

几率分布与数理统计不只是在纯机器学习领域的一个理论研究成果,在各个具体的应用学科里也被普遍的时候,其中也包括笔者所在的网络安全领域。笔者这里列举一些典型的几率统计的应用场景。

0x1:统计语言模型

在统计语言模型中,经过统计每一个词组的词频(words group frequency)获得词组的词频直方图,这个直方图本质上就是一个离散型随机变量X,随机变量X表明每一个词组的词频权重。

统计语言模型经过词组词频随机变量来抽象归纳输入文本的文本语言特征。

关于统计语言模型的相关讨论,能够参阅另外一篇文章。 

0x2:基于数理统计方法的地质模型不肯定性评价 

王鹏飞,高振南,李俊飞,等.基于数理统计方法的地质模型不肯定性评价[J].地质科技情报

0x3:关于气象灾害笼罩面积与出现几率的一个定理

论文的主要讨论重点能够总结为:

气象灾害(现象) x 的出现几率是能够从当地的多年气象资料的统计中获得的, 它是时间域的问题。
气象灾害(现象) x 在同一时刻在面积 S 上占有的面积问题是能够经过天气图的分析而获得的, 它是空间域的问题。
文章从几率分布上证实了这两个随机变量的几率分布是近似相等的,将时间域问题和空间域这两种含义不一样的统计联系到了一块儿。
简单来讲,若是 24h 内有降水的事件的出现几率在全国各地的平均值等于 0.3 (各地平均 3d 有一场雨), 那么雨区占全国总面积的百分比的时间平均值也应当是 0.3, 即平均而言雨区占总面积的 30%。
创建起这两个随机变量之间的近似等价关系以后,就能够进行 t检验,即已知一个随机事件的几率后,检测另外一个对应等价随机事件一样也发生的置信度。
简单来讲,就是,N 年一遇的灾害若是某年在全国发生的面积为 1/N, 那么这应当属于正常年份。若是受灾面积超过 1/N,则说明该年不正常。

0x4:一种基于几率分布的投标报价方法 

论文的主要观点能够总结为:

做者经过对企业的历史项目招投标以及运营收益的数据收集,并进行统计分析。对项目成本、投标价格、项目利润收益指望这几个随机变量进行建模。最后经过计算利润收益指望的极值,获得一个“投标价格和企业收益的几率分布函数推导公式”,获得一个相对准确的投标报价模型。

使得投资者能够根据本身的报价预估可能的利润收益,同时也能够根据预期的利润收益反推应该采起的报价策略和措施。

0x5:几率统计与数理分析在各个学科场景中的应用 

有一点笔者但愿提出的是,在工程实践的复杂场景中,不要总想着用咱们已知的一些经典几率统计模型去“套用”,例如说“我尝试用正态分布来对一个现象进行建模,也无论实际数据拟合程度如何,就强行硬套”。在不少时候,经典的几率分布函数也不足以描述事物的全部规律与变化,这时候须要提出新的几率密度函数,或者基于经典几率分布函数进行组合改造,使其更加符合实际的数据分布表现。

Relevant Link:

http://xueshu.baidu.com/s?wd=%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E5%9C%A8%E5%90%84%E4%B8%AA%E5%AD%A6%E7%A7%91%E9%A2%86%E5%9F%9F%E7%9A%84%E5%BA%94%E7%94%A8&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_hit=1
http://xueshu.baidu.com/usercenter/paper/show?paperid=de08e07cdd644a2a4c90260a6056f011

 

5. 生成式模型和判别式模型的对立与统一

以几率分布函数为主的统计应用,主要是围绕生成式模型进行研究和开发,他们更注重了解事物的规律自己,以此来更好的指导决策。

另外一方面,像深度神经网络这类机器学习算法,主要是围绕判别式模型进行研究和开发,他们更加注意数据和算法自己,主要的目标是得到一个泛化能力更好的模型,对模型的内部参数以及几率分布并不十分关心。

 

6. 基于系统在不一样时域中的几率分布函数的状态变化进行异常检测

开题可行性调查:同一个系统,若是没有外力做用或内部状态发生巨变的状况下,特征函数应该稳定收敛为一个特定的几率分布函数上,相反,若是有异常发生,则该系统的特征函数会发生状态跃迁,具体的表现就是几率分布函数的参数发生变化。

具体的变换程度能够经过”变化显著性“进行量化度量。

相关话题讨论能够wechat或者emai和我交流。

相关文章
相关标签/搜索