从贝叶斯定理到几率分布:综述几率论基本定义

本文从最基础的几率论到各类几率分布全面梳理了基本的几率知识与概念,这些概念可能会帮助咱们了解机器学习或开拓视野。这些概念是数据科学的核心,并常常出如今各类各样的话题上。重温基础知识老是有益的,这样咱们就能发现之前并未理解的新知识。

简介

在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助咱们了解机器学习或开拓视野。这些概念是数据科学的核心,并常常出如今各类各样的话题上。重温基础知识老是有益的,这样咱们就能发现之前并未理解的新知识,因此咱们开始吧。
第一部分将会介绍几率论基础知识。

几率
咱们已经拥有十分强大的数学工具了,为何咱们还须要学习几率论?咱们用微积分来处理变化无限小的函数,并计算它们的变化。咱们使用代数来解方程,咱们还有其余几十个数学领域来帮助咱们解决几乎任何一种能够想到的难题。
难点在于咱们都生活在一个混乱的世界中,多数状况下没法准确地测量事物。当咱们研究真实世界的过程时,咱们想了解许多影响实验结果的随机事件。不肯定性无处不在,咱们必须驯服它以知足咱们的须要。只有如此,几率论和统计学才会发挥做用。
现在,这些学科处于人工智能,粒子物理学,社会科学,生物信息学以及平常生活中的中心。
若是咱们要谈论统计学,最好先肯定什么是几率。其实,这个问题没有绝对的答案。咱们接下来将阐述几率论的各类观点。
频率
想象一下,咱们有一枚硬币,想验证投掷后正反面朝上频率是否相同。咱们如何解决这一问题?咱们试着进行一些实验,若是硬币正面向上记录 1,若是反面向上记录 0。重复投掷 1000 次并记录 0 和 1 的次数。在咱们进行了一些繁琐的时间实验后,咱们获得了这些结果:600 个正面(1)和 400 反面(0)。若是咱们计算过去正面和反面的频率,咱们将分别获得 60%和 40%。这些频率能够被解释为硬币出现正面或者反面的几率。这被称为频率化的几率。
条件几率
一般,咱们想知道某些事件发生时其它事件也发生的几率。咱们将事件 B 发生时事件 A 也发生的条件几率写为 P(A | B)。如下雨为例:
  • 打雷时下雨的几率有多大?
  • 晴天时下雨的几率有多大?
从这个欧拉图,咱们能够看到 P(Rain | Thunder)= 1 :当咱们看到雷声时,总会下雨(固然,这不彻底正确,可是咱们在这个例子中保证它成立)。
P(Rain | Sunny)是多少呢?直觉上这个几率很小,可是咱们怎样才能在数学上作出这个准确的计算呢?条件几率定义为:
换句话说,咱们用 Rain 且 Sunny 的几率除以 Sunny 的几率。

相依事件与独立事件
若是一个事件的几率不以任何方式影响另外一个事件,则该事件被称为独立事件。以掷骰子且连续两次掷得 2 的几率为例。这些事件是独立的。咱们能够这样表述
可是为何这个公式可行?首先,咱们将第一次投掷和第二次投掷的事件重命名为 A 和 B,以消除语义影响,而后将咱们看到的两次投掷的的联合几率明确地重写为两次投掷的单独几率乘积:
如今用 P(A)乘以 P(B)(没有变化,能够取消)并从新回顾条件几率的定义:
若是咱们从右到左阅读上式,咱们会发现 P(A | B) = P(A)。这就意味着事件 A 独立于事件 B!P(B)也是同样,独立事件的解释就是这样。

贝叶斯几率论
贝叶斯能够做为一种理解几率的替代方法。频率统计方法假设存在咱们正在寻找的模型参数的一个最佳的具体组合。另外一方面,贝叶斯以几率方式处理参数,并将其视为随机变量。在贝叶斯统计中,每一个参数都有本身的几率分布,它告诉咱们给已有数据的参数有多种可能。数学上能够写成
这一切都从一个容许咱们基于先验知识来计算条件几率的简单的定理开始:
尽管贝叶斯定理很简单,但它具备巨大的价值,普遍的应用领域,甚至是贝叶斯统计学的特殊分支。有一个关于贝叶斯定理的很是棒的博客文章,若是你对贝叶斯的推导感兴趣---这并不难。

抽样与统计
假设咱们正在研究人类的身高分布,并渴望发表一篇使人兴奋的科学论文。咱们测量了街上一些陌生人的身高,所以咱们的测量数据是独立的。咱们从真实人群中随机选择数据子集的过程称为抽样。统计是用来总结采样值数据规律的函数。你可能见过的统计量是样本均值:
另外一个例子是样本方差:
这个公式能够得出全部数据点偏离平均值的程度。

分布

什么是几率分布?这是一个定律,它以数学函数的形式告诉咱们在一些实验中不一样可能结果的几率。对于每一个函数,分布可能有一些参数来调整其行为。
当咱们计算硬币投掷事件的相对频率时,咱们实际上计算了一个所谓经验几率分布。事实证实,世界上许多不肯定的过程能够用几率分布来表述。例如,咱们的硬币结果是一个伯努利分布,若是咱们想计算一个 n 次试验后硬币正面向上的几率,咱们可使用二项式分布。
引入一个相似于几率环境中的变量的概念会方便不少--随机变量。每一个随机变量都具备必定的分布。随机变量默认用大写字母表示,咱们可使用 ~ 符号指定一个分布赋给一个变量。
上式表示随机变量 X 服从成功率(正面向上)为 0.6 的伯努利分布。

连续和离散几率分布
几率分布可分为两种:离散分布用于处理具备有限值的随机变量,如投掷硬币和伯努利分布的情形。离散分布是由所谓的几率质量函数(PMF)定义的,连续分布用于处理连续的(理论上)有无限数量的值的随机变量。想一想用声音传感器测量的速度和加速度。连续分布是由几率密度函数(PDF)定义的。
这两种分布类型在数学处理上有所不一样:一般连续分布使用积分 ∫ 而离散分布使用求和Σ。以指望值为例:
下面咱们将详细介绍各类常见的几率分布类型,正如上所说,几率分布能够分为离散型随机变量分布和连续性随机变量分布。离散型随机变量分布常见的有伯努利分布(Bernoulli Distribution)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常见的连续型随机变量分布包括均匀分布(Uniform Distribution)、指数分布(Exponential Distribution)、正态分布等。

常见的数据类型

在解释各类分布以前,咱们先看看常见的数据类型有哪些,数据类型可分为离散型和连续型。
离散型数据:数据只能取特定的值,好比,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。
连续型数据:数据能够在给定的范围内取任何值,给定的范围能够是有限的或无限的,好比一个女孩的体重或者身高,或者道路的长度。一个女孩的体重能够是 54 kgs,54.5 kgs,或 54.5436kgs。

分布的类型

伯努利分布
最简单的离散型随机变量分布是伯努利分布,咱们从这里开始讨论。
一个伯努利分布只有两个可能的结果,记做 1(成功)和 0(失败),只有单次伯努利试验。设定一个具备伯努利分布的随机变量 X,取值为 1 即成功的几率为 p,取值为 0 即失败的几率为 q 或者 1-p。
若随机变量 X 服从伯努利分布,则几率函数为:
成功和失败的几率不必定要相等。好比当我和一个运动员打架的时候,他的胜算应该更大,在这时候,个人成功几率是 0.15,而失败几率是 0.85。
下图展现了咱们的战斗的伯努利分布。
如上图所示,个人成功几率=0.15,失败几率=0.85。指望值是指一个几率分布的平均值,对于随机变量 X,对应的指望值为:E(X) = 1*p + 0*(1-p) = p,而方差为 V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)
实际上还有不少关于伯努利分布的例子,好比明天是晴天仍是雨天,这场比赛中某一队输仍是赢,等等。

二项分布
如今回到掷硬币的案例中,当掷完第一次,咱们能够再掷一次,也就是存在多个伯努利试验。第一次为正不表明之后也会为正。那么设一个随机变量 X,它表示咱们投掷为正面的次数。X 可能会取什么值呢?在投掷硬币的总次数范围内能够是任何非负整数。
若是存在一组相同的随机事件,即一组伯努利试验,在上例中为连续掷硬币屡次。那么某随机事件出现的次数即几率服从于二项分布,也称为多重伯努利分布。
任何一次试验都是互相独立的,前一次试验不会影响当前试验的结果。两个结果几率相同的试验重复 n 次的试验称为屡次伯努利试验。二项分布的参数为 n 和 p,n 是试验的总次数,p 是每一次试验的成功几率。
根据以上所述,一个二项分布的性质为:

1. 每一次试验都是独立的;
2. 只有两个可能的结果;
3. 进行 n 次相同的试验;
4. 全部试验中成功率都是相同的,失败的几率也是相同的。
二项分布的数学表达式为:
成功几率和失败几率不相等的二项分布看起来以下图所示:
而成功几率和失败几率相等的二项分布看起来以下图所示:
二项分布的平均值表示为 µ = n*p,而方差能够表示为 Var(X) = n*p*q。

泊松分布
若是你在一个呼叫中心工做,一天内会接到多少次呼叫呢?多少次均可能!在呼叫中心一天能接到多少次呼叫能够用泊松分布建模。这里有几个例子:
1. 一天内医院接到的紧急呼叫次数;
2. 一天内地方接到的偷窃事件报告次数;
3. 一小时内光顾沙龙的人数;
4. 一个特定城市里报告的自杀人数;
5. 书的每一页的印刷错误次数。

如今你能够按相同的方式构造不少其它的例子。泊松分布适用于事件发生的时间和地点随机分布的状况,其中咱们只对事件的发生次数感兴趣。泊松分布的主要特色为以下:
1. 任何一个成功事件不能影响其它的成功事件;
2. 通过短期间隔的成功几率必须等于通过长时间间隔的成功几率;
3. 时间间隔趋向于无穷小的时候,一个时间间隔内的成功几率趋近零。

在泊松分布中定义的符号有:
  • λ是事件的发生率;
  • t 是事件间隔的长度;
  • X 是在一个时间间隔内的事件发生次数。
设 X 是一个泊松随机变量,那么 X 的几率分布称为泊松分布。以µ表示一个时间间隔 t 内平均事件发生的次数,则 µ=λ*t;
X 的几率分布函数为:
泊松分布的几率分布图示以下,其中µ为泊松分布的参数:
下图展现了均值增长时的分布曲线的变化状况:
如上所示,当均值增长时,曲线向右移动。泊松分布的均值和方差为:
均值:E(X) = µ
方差: Var(X) = µ

均匀分布
假设咱们在从 a 到 b 的一段线段上等距地选择一个区间的几率是相等的,那么几率在整个区间 [a,b] 上是均匀分布的,几率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不一样,随机变量的取值都是等几率的,所以几率密度就能够表达为区间长度分之一,若是咱们取随机变量一半的可能值,那么其出现的几率就为 1/2。
假定随机变量 X 服从均匀分布,那么几率密度函数为:
均匀分布曲线图以下所示,其中几率密度曲线下面积为随机变量发生的几率:
咱们能够看到均匀分布的几率分布图呈现为一个矩形,这也就是均匀分布又称为矩形分布的缘由。在均匀分布中,a 和 b 都为参数,也即随机变量的取值范围。
服从均匀分布的随机变量 X 也有均值和方差,它的均值为 E(X) = (a+b)/2,方差为 V(X) = (b-a)^2/12
标准均匀分布的密度函数参数 a 取值为 0,b 取值为 1,所以标准均匀分布的几率密度能够表示为:
指数分布

如今咱们再次考虑电话中心案例,那么电话间隔的分布是怎么样的呢?这个分布可能就是指数分布,由于指数分布能够对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。
在深度学习中,咱们常常会须要一个在 x=0 处取得边界点 (sharp point) 的分布。为了实现这一目的,咱们可使用指数分布(exponential distribution):
指数分布使用指示函数 (indicator function)1x≥0,以使当 x 取负值时的几率为零。
其中 λ >0 为几率密度函数的参数。随机变量 X 服从于指数分布,则该变量的均值可表示为 E(X) = 1/λ、方差能够表示为 Var(X) = (1/λ)^2。以下图所示,若λ较大,则指数分布的曲线降低地更大,若λ较小,则曲线越平坦。以下图所示:
如下是由指数分布函数推导而出的简单表达式:
P{X≤x} = 1 – exp(-λx),对应小于 x 的密度函数曲线下面积。
P{X>x} = exp(-λx),表明大于 x 的几率密度函数曲线下面积。
P{x1<X≤ x2} =exp(-λx1)-exp(-λx2),表明 x1 点和 x2 点之间的几率密度函数曲线下面积。

正态分布(高斯分布)
实数上最经常使用的分布就是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。由于该分布的广泛性,尤为是中心极限定理的推广,通常叠加不少较小的随机变量均可以拟合为正态分布。正态分布主要有如下几个特色:
1. 全部的变量服从同一均值、方差和分布模式。
2. 分布曲线为钟型,而且沿 x=μ对称。
3. 曲线下面积的和为 1。
4. 该分布左半边的精确值等于右半边。

正态分布和伯努利分布有很大的不一样,然而当伯努利试验的次数接近于无穷大时,他们的分布函数基本上是相等的。

若随机变量 X 服从于正态分布,那么 X 的几率密度能够表示为:
随机变量 X 的均值可表示为 E(X) = µ、方差能够表示为 Var(X) = σ^2。其中均值µ和标准差σ为高斯分布的参数。
随机变量 X 服从于正态分布 N (µ, σ),能够表示为:
标准正态分布能够定义为均值为 0、方差为 1 的分布函数,如下展现了标准正态分布的几率密度函数和分布图:

分布之间的关系


伯努利分布和二项分布的关系
1. 二项分布是伯努利分布的单次试验的特例,即单词伯努利试验;
2. 二项分布和伯努利分布的每次试验都只有两个可能的结果;
3. 二项分布每次试验都是互相独立的,每一次试验均可以看做一个伯努利分布。

泊松分布和二项分布的关系
如下条件下,泊松分布是二项分布的极限形式:
1. 试验次数很是大或者趋近无穷,即 n → ∞;
2. 每次试验的成功几率相同且趋近零,即 p →0;
3.np =λ 是有限值。

正态分布和二项分布的关系 & 正态分布和泊松分布的关系
如下条件下,正态分布是二项分布的一种极限形式:
1. 试验次数很是大或者趋近无穷,即 n → ∞;
2.p 和 q 都不是无穷小。
参数 λ →∞的时候,正态分布是泊松分布的极限形式。

指数分布和泊松分布的关系
若是随机事件的时间间隔服从参数为 λ的指数分布,那么在时间周期 t 内事件发生的总次数服从泊松分布,相应的参数为 λt。

测试
读者能够完成如下简单的测试,检查本身对上述几率分布的理解程度:
1. 服从标准正态分布的随机变量计算公式为:
a. (x+µ) / σ
b. (x-µ) / σ
c. (x-σ) / µ

2. 在伯努利分布中,计算标准差的公式为:
a. p (1 – p)
b. SQRT(p(p – 1))
c. SQRT(p(1 – p))

3. 对于正态分布,均值增大意味着:
a. 曲线向左移
b. 曲线向右移
c. 曲线变平坦

4. 假定电池的生命周期服从 λ = 0.05 指数分布,那么电池的最终使用寿命在 10 小时到 15 小时之间的几率为:
a.0.1341
b.0.1540
c.0.0079

结语

在本文中,咱们从最基本的随机事件及其概念出发讨论对几率的理解。随后咱们讨论了最基本的几率计算方法与概念,好比条件几率和贝叶斯几率等等。文中还讨论了随机变量的独立性和条件独立性。此外,本文更是详细介绍了几率分布,包括离散型随机变量分布和连续型随机变量分布。本文主要讨论了基本的几率定理与概念,其实这些内容在咱们大学的几率论与数理统计课程中基本上都有详细的解释。而对于机器学习来讲,理解几率和统计学知识对理解机器学习模型十分重要,以它为基础咱们也能进一步理解结构化几率等新概念。


原文连接:
  • https://medium.com/towards-data-science/probabiliy-theory-basics-4ef523ae0820
  • https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/

选自 Medium & analyticsvidhya
机器之心编译
机器之心编辑部


本文为机器之心编译,转载请联系本公众号得到受权。
相关文章
相关标签/搜索