几率统计21——指数分布和无记忆性

时间 2020-02-28

标签几率统计指数分布记忆繁體版

原文原文链接

　　指数分布（Exponential distribution）是一种连续型几率分布，能够用来表示独立随机事件发生的时间间隔的几率，好比婴儿出生的时间间隔、旅客进入机场的时间间隔、打进客服中心电话的时间间隔、系统出现bug的时间间隔等等。微信

指数分布的由来

　　指数分布与泊松分布存在着联系，它实际上能够由泊松分布推导而来。less

　　泊松分布（几率统计15）中已经介绍过泊松分布，除了做为二项分布的近似外，当独立事件发生的频率固定时，泊松分布还能够刻画算单位时间内事件发生次数的几率分布。dom

　　假设某个公司有一个带伤上线的系统，每周平均的故障次数是2次，在下周不发生故障几率是多少？函数

　　每周平均的故障次数是2次，咱们能够把“一周”看做单位时间，程序的故障率是λ=2，单位时间内发生故障的次数X符合泊松分布X~Po(λ)。在下周不发生故障的几率至关于发生了0个故障的几率：学习

　　如今要求计算两周以内不发生故障的几率。咱们用随机变量T>2表示在2个单位时间内系统未发生故障的事件。在已知下周不发生故障的几率的状况下，P（T>2）计算起来很容易：spa

　　咱们换一种思路。以前是把“一周”看做单位时间，单位时间内事件发生的频率是λ=2。如今是变成了双倍的单位时间，故障发生的频率天然就变成2λ=4，这样一来，两周以内不发生故障的几率是：3d

　　结果和①相等。code

　　时间是连续的，若是计算T=1.5周内不发生故障的几率，①就显得无能为力了。可是②却没有任何问题，只要把单位时间内事件的频率λ随着时间T进行放缩就能够了：orm

　　将问题推广到任意时间间隔：blog

　　反过来，故障在时间 t 以内发生的几率就是1-P(T>t)：

　　如今把T换成X：

　　这里的F(x;λ)就是指数分布的分布函数，λ表示平均每单位时间内事件发生的次数，随机变量X表示时间间隔。

　　F(x;λ)对应的密度函数是：

　　随机变量X符合参数为λ>0的指数分布，记做X~E(λ)。

　　有些资料的写法是：

　　仅仅是用θ代替了1/λ。

无记忆性

　　指数分布的一个重要特征是无记忆性（Memoryless Property，又称遗失记忆性）。若是一个随机变量呈指数分布X~E(λ)，当s, t ≥0时：

　　先来看看这个等式为何成立。

　　所以两者相等。

　　在前面的推导中能够看到：

　　累积几率对应面积，这个结论告诉咱们，在指数分布下，P{X>s+t}和P{X>s}对应的面积的比值等于P{X>t}对应的面积和整体面积的比值：

理解无记忆性

　　咱们已经知道指数分布能够用来表示独立随机事件发生的时间间隔的几率分布，在精密元件的可靠性研究中，指数分布一般用于描述对元件发生缺陷数测量结果。可是无记忆性又指出，元件在通过s时间的工做以后，它的寿命分布与原来还未工做时的寿命分布相同。这就比如有一个已经用了10年的灯泡和一个刚买的灯泡，如今我告诉你它俩在将来一年里报废的几率相同，你信吗？

　　一个著名的问题是“赌徒心理”。假设在赌桌上只能押大或小，某个赌徒已经连续押了10次小，但都输了，因而赌徒认为，下次再出现小的可能性很是低，因而他想把兜里的钱所有押大，试图翻本。

　　不妨帮助赌徒分析一下翻本的几率。

　　假设这是一个公平的赌场，大和小的几率都是0.5，用随机变量X表示第一次出现“大”时所参与的赌局数，X符合几何分布：

　　其中p表示出现“大”的几率，q表示出现“小”的几率。直到第11次才出现“大”的几率是0.5¹¹，这是个很是小的数值，可见这个赌徒确实运气不佳。

　　接着分析，用X>10表示连续10次以上没出现“大”的事件，以此为前提，下一次（第11次）出现大的几率是：

　　在连续押小输掉10次的条件下，下一次出现“大”，和第1次就出现“大”的几率相同。对于赌徒来讲，每一局都是全新的，下一次赢钱的几率和以前的输赢没有任何关系，这就是所谓的无记忆性。

　　指数分布与几何分布相似，只不过把离散随型机变量变成了连续型。

　　实际上生活中有不少无记忆性的例子，好比车牌摇号。对于参与摇号的人来讲，在每一次摇号中摇中的几率都是相等的。有人说不对啊，明明告诉我摇中的几率是1%，100次里面怎么还不能中一回吗？所谓的1%摇中率，是在大数定律下才起做用，而现实生活中咱们面对的每每是“小数”。能够用程序模拟一下：

1 import numpy as np
2
3 np.random.seed(41)
4 for i in range(1, 11, 1):
5     m = 100 * i # 试验次数
6     nums = np.random.randint(1, 101, 200) # 从1~100中随机选择m个数字
7     p_50_size = nums[nums == 50].size # m个数字中出现50的次数
8     print('一共参与摇号{}次，摇中{}次，几率{}'.format(m, p_50_size, p_50_size/m))

　　结果显示：

　　一共参与100次摇号，摇中0次，几率0.0

　　一共参与200次摇号，摇中0次，几率0.0

　　一共参与300次摇号，摇中3次，几率0.01

　　一共参与400次摇号，摇中3次，几率0.0075

　　一共参与500次摇号，摇中2次，几率0.004

　　一共参与600次摇号，摇中3次，几率0.005

　　一共参与700次摇号，摇中4次，几率0.005714285714285714

　　一共参与800次摇号，摇中3次，几率0.00375

　　一共参与900次摇号，摇中3次，几率0.0033333333333333335

　　一共参与1000次摇号，摇中5次，几率0.005

　　每个月摇号一次，一我的穷尽一辈子也知足不了“大数”，摇号还真是件没谱的事。

　　由于无记忆性的关系，有人戏称服从指数分布的随机变量就像传说中金鱼只有7秒钟记忆同样，是“永远年轻的”。也正是这一点限制了指数分布的应用，由于指数分布忽略了损耗。可是，指数分布仍然能够近似地做为高可靠性的复杂部件、机器或系统的失效分布模型，特别是在部件或机器的整机试验中获得普遍的应用。

　　至于灯泡的寿命是否符合指数分布，其实我也不知道。也许如今制做工艺提高了，灯泡已是具备高可靠性的产品，灯泡明天是否还能正常工做，彻底取决因而否遭到了外力的破坏，平常损耗所起到的做用能够忽略不计，这种状况下，灯泡的使用寿命才有可能符合指数分布。

关于保修期的问题

　　冰箱平均10年出现一次大的故障，求：

　　（1）冰箱使用15年后尚未出现大故障的比例。

　　（2）若是厂家想提供大故障免费维修的质保，试肯定保修1~5年内，须要维修的冰箱的占比。

　　冰箱平均10年出现大的故障，可见故障率不高，能够认为故障次数服从泊松分布，单位时间是1年，λ=0.1。

　　（1）根据指数分布：

　　冰箱使用15年后尚未出现大故障的比例约等于22.3%。

　　（2）

1 from scipy import stats
2
3 lam = 0.1
4 for i in range(1, 6):
5     print(stats.expon.cdf(i, scale=1/lam))

　　上表告诉了咱们冰箱的保修期通常都是2年之内的缘由，厂家为了把上门修理的次数控制在20%之内，通常选择保修2年。

指望和方差

　　对于X~E(λ)的指数分布来讲，它的指望是1/λ，方差是1/λ²。

　　先来看指望：

　　根据分部积分：

　　再来看方差：

　　继续利用分部积分：

　　将u=λx代入④：

　　将在E[X]中求得的③代入⑤中：

　　最终：

　　出处：微信公众号 "我是8位的"

　　本文以学习、研究和分享为主，如需转载，请联系本人，标明做者和出处，非商业用途！

　　扫描二维码关注做者公众号“我是8位的”