数据分析and数据科学必须掌握的分布

1 二项分布 Binomial Distribution

特殊情况:0-1分布,又叫两点分布,
在这里插入图片描述
伯努利实验(二项分布):
在这里插入图片描述
式中k=0,1,2,…,n,是二项式系数(这就是二项分布名称的由来)。在这里插入图片描述

X~B(n,p) 期望E(x)=np,方差D(x)= np(1−p) 【方差也可以写作V(x),Var(X)】

在这里插入图片描述

2 泊松分布 Poisson Distribution

泊松分布成立的条件:二项、独立、等概率
在这里插入图片描述

在这里插入图片描述
E(x) = V(x) = λ

特殊地,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ=np。【即二项分布既可以转化为泊松,也可以泊松转二项】具体解释原因:链接

当n大到一定程度,以至于可以将二项分布和泊松分布视为连续的时候,泊松分布近似等于正态分布或二项分布。判断方法:Rule of Thumb:
在这里插入图片描述

3 正态分布Normal Distribution(高斯分布 Gaussian Distribution)

在这里插入图片描述
需要特别指出,这个式子求积分很难,通常不做要求。

特殊情况:标准正态分布 Standard Normal Distribution, 此时期望E(X)=0, 方差 V(x)=1, X~N(0,1)。此时 f(x) = 1 - f(-x), [f(x)指从负无穷到x的概率之和]
在这里插入图片描述

对于一般的正态分布而言,要使用该性质必须进行转化,将普通正态分布转化为标准正态分布。方法是(Xi-期望)/ 方差。然后查表可知。特别指出,方差越大,形状越矮胖,表示数据越分散。

4 指数分布 Exponential Distribution

在这里插入图片描述
E(X)= 1/λ, V(x)=1/( λ* λ)
在这里插入图片描述

5 联合分布 Joint Distribution

若对于离散随机变量任意x和y而言有 :P(X=x and Y=y)=P(X=x) ·P(Y=y)
或者有连续随机变量:pX,Y(x,y)=pX(x)·pY(y)
则X和Y是独立的。

类似地,对连续随机变量而言,联合分布概率密度函数为fX,Y(x, y),其中fY|X(y|x)和fX|Y(x|y)分别代表X = x时Y的条件分布以及Y = y时X的条件分布;fX(x)和fY(y)分别代表X和Y的边缘分布。 [3]
同样地,因为是概率分布函数,所以必须有:∫x∫y fX,Y(x,y) dy dx=1

6 伽马分布 Gamma Distribution

7 卡方分布 Chi-Squared Distribution

8 Beta分布