几率论和统计学中重要的分布函数


随机变量在几率空间中遵循不一样类型的分布,这决定了它们的特征并有助于预测。微信

本文内容列表:app

  • 引言编辑器

  • 高斯/正态分布(Gaussian/Normal Distribution)ide

  • 二项分布(Binomial Distribution)函数

  • 伯努利分布(Bernoulli Distribution)大数据

  • 对数正态分布(Log Normal Distribution)flex

  • 幂律分布(Power Law Distribution)ui

  • 分布函数的使用人工智能

引言

每当咱们遇到任何几率实验,咱们谈论的是随机变量,它只不过是获取实验预期结果的变量。例如,当咱们掷骰子时,咱们指望从集合{1,2,3,4,5,6}中获得一个值。因此咱们定义了一个随机变量X,它在每次掷骰时取这些值。spa

根据实验的不一样,随机变量能够取离散值,也能够取连续值。骰子的例子是离散随机变量,由于它取一个离散值。可是假设咱们讨论的是某个城镇的房价,那么相关的随机变量能够取连续的值(例如550000美圆,1200523.54美圆等等)。

当咱们将随机变量的指望值与实验中出现频率的关系图绘制出来时,咱们获得了一个直方图形式的频率分布图。利用核密度估计对这些直方图进行平滑处理,获得了一条很好的曲线。这条曲线被称为“分布函数”。


橙色平滑曲线是几率分布曲线

高斯/正态分布

高斯/正态分布是一个连续的几率分布函数,随机变量在均值(μ)和方差(σ²)周围对称分布。


高斯分布函数

平均值(μ):决定峰值在X轴上的位置。并且,全部数据都对称地位于X=μ线的两侧。如图所示,蓝色、红色和黄色曲线分布在X=0的两侧,而绿色曲线的中心位于X=-2。因此经过观察这些曲线,咱们能够很容易地说,蓝色,红色和黄色的平均值是0,而绿色的平均值是-2。

方差(σ²):决定曲线的宽度和高度。方差只不过是标准差的平方。请注意,图中给出了全部四条曲线的σ²值。如今不看数值,咱们能够很直观地发现,黄色曲线的高度最低。

若是咱们设置μ=0和σ=1,则称为标准正态分布或标准正态变量,通常表达式变为:


标准正态分布函数

如今咱们能够思考,分母意味着什么?这是为了确保正态分布曲线下的面积老是等于1。

咱们从正态分布中能够获得不少有用的数据分割信息。如下图为例:


正态分布的值分割图

如图所示,若是咱们从平均值右移一个标准差,这个分布存储了总质量的34.1%;若是咱们从平均值右移2个标准误差,则为49.8%。由于这条曲线是对称的,因此两边都适用。

因此,如今咱们知道了,若是任何数据服从正态分布,例如城镇人口的权重,咱们能够很容易地估计出不少值,而不须要进行实际的普遍分析。这就是正态分布的力量。

二项分布(Binomial Distribution)

正如咱们在名字里看到的,有一个“Bi”。这个‘Bi’表明一个实验的2个结果,要么是确定的,要么是失败的,要么是1或者0等等。最简单的说,这个分布是屡次重复实验的分布以及它们的几率,其中预期结果要么是“成功”要么是“失败”。


二项分布

从图像上能够看出,它是一个离散的几率分布函数。主要参数为n(试验次数)和p(成功几率)。

如今假设咱们有一个事件成功的几率p,那么失败的几率是(1-p),假设你重复实验n次(试验次数=n)。那么在n个独立的伯努利试验中得到k个成功的几率是:

二项分布函数

其中k属于范围[0,n],而且:

如今咱们思考一个简单的问题。假设印度和澳大利亚之间正在进行板球比赛。Rohit Sharma已经获得了151分,根据你的经验,你知道150分以后,Rohit有0.3分的几率达到6分。这是最后一节了,你父亲问你Rohit有多大的机会能打4个全垒打。那你怎么判断呢?

这是一个典型的二项试验的例子。因此,解决办法是:

注:大括号中的6和4是6C4,它是6个球中4个全垒打的可能组合。

伯努利分布

在二项分布中,咱们有一个特殊的例子叫作伯努利分布,其中n=1,这意味着在这个二项实验中只进行了一次试验。当咱们把n=1放入二项PMF(几率质量函数)中时,nCk等于1,函数变成:

伯努利分布PMF

式中,k={0,1}。

如今咱们来看看印度队对澳大利亚队的比赛。假设当Rohit达到100分(a ton),那么印度获胜的概率是0.7。因此你能够简单地告诉你父亲印度有70%的机会赢了。

对数正态分布

咱们已经了解了正态分布的性质,乍一看,许多人会说,对数正态曲线在某种程度上也让咱们看到了正态分布是右偏态的。

假设有一个随机变量X服从对数正态分布,均值=μ,方差=σ²。X有总共n个可能值(x1,x2,x3…..xn)。如今取全部X值的天然对数,并建立一个新的随机变量Y=[Log(x1),Log(x2),Log(x3)…Log(xn)]。这个随机变量Y是正态分布的。

换句话说,若是存在正态分布Y,而且咱们取它的指数函数X=exp(Y),那么X将遵循对数正态分布。

它还具备与高斯函数相同的参数:均值(μ)和方差(σ²)。

幂律/帕累托分布

幂律是两个量之间的关系,其中一个量的变化将成比例地改变另外一个量。它遵循一个80-20法则:在前20%的值中,咱们能够找到大约80%的质量密度。如图所示,稍暗的左侧部分为质量的80%,右侧亮黄色部分为20%。

当几率分布遵循幂律时,咱们称之为帕累托分布。帕累托分布由两个参数控制:x_m和α。xμm能够看做是控制曲线尺度的均值,α能够看做是控制曲线形状的σ。(注:x_m不是平均值,α不是σ。)如今咱们能够在图像中看到,全部四条曲线的峰值都位于x=1。因此,咱们能够说对于图中的全部曲线,x_m=1。随着α的增长,峰值也会上升,在α趋于无穷大的极端状况下,曲线仅转变为一条垂直线。这叫作Diracδ函数。随着α的减少,曲线变得更加平缓。

帕累托分布PMF

分布函数的使用

若是咱们知道一个特定的数据遵循必定的分布特征,那么咱们能够采起部分样本,找到所涉及的参数,而后能够绘制出几率分布函数来解决许多问题。例如:在一个有10万人口的城镇,咱们必须作身高分析,但咱们不能对这么多人口进行调查。所以,咱们选取一个随机样本,求出样本均值和样本标准差。如今假设一位医生或专家告诉咱们身高服从正态分布。这样咱们就能够轻松地回答许多问题了。


做者: Saurabh Raj

deephub翻译组:Oliver Lee


DeepHub

微信号 : deephub-imba

每日大数据和人工智能的重磅干货

大厂职位内推信息

长按识别二维码关注 ->

喜欢就请三连暴击!    


本文分享自微信公众号 - DeepHub IMBA(deephub-imba)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。