B-几率论-常见的几率分布模型

时间 2019-11-10

标签几率常见的分布模型繁體版

原文原文链接

目录html

更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：http://www.javashuo.com/article/p-vozphyqp-cm.htmlpython

常见的几率分布模型

1、离散几率分布函数

离散几率分布也称为几率质量函数（probability mass function），离散几率分布的例子有算法

伯努利分布（Bernoulli distribution）数据结构

二项分布（binomial distribution）机器学习

泊松分布（Poisson distribution）函数

几何分布（geometric distribution）等学习

2、连续几率分布函数

连续几率分布也称为几率密度函数（probability density function），它们是具备连续取值（例如一条实线上的值）的函数，连续几率分布的例子有网站

正态分布（normal distribution）人工智能

指数分布（exponential distribution）spa

β分布（beta distribution）等

3、联合分布函数

给定一个随机变量\((X,Y)\)，称定义域为整个平面的二元实值函数
\[ F(x,y) = P(X\leq{x},Y\leq{y}) \quad -\infty\geq{x,y}\leq\infty \]
该二元实值函数为随机变量\((X,Y)\)的分布函数，也能够称为是\((X,Y)\)的联合分布函数。

按照联合分布函数的定义，\(F(x,y)=P((X,Y)\in{D_{xy}})\)，其中\(D_{xy}\)以下图所示

4、多项分布（Multinomial Distribution）

4.1 多项分布简介

多项分布是二项分布的推广，他们的区别是二项分布的结果只有\(0\)和\(1\)两种，多项式的结果能够有多个值。

多项分布的典型例子是掷骰子，6个点对应6个不一样的数，每一个点的几率都为\({\frac{1}{6}}\)

与二项分布相似，多项分布来自于\((p_1+p_2+\cdots+p_k)^n多项式的展开\)

4.2 多项分布公式解析

以掷骰子为例，掷骰子的时候掷\(1-6\)的几率都为\({\frac{1}{6}}\)，记做\(p_1-p_6\)，能够发现\(p_1+p_2+p_3+p_4+p_5+p_6=1\)，如今把\(p_1+p_2+p_3+p_4+p_5+p_6\)记做作一次抽样各类事件发生的几率和，便可得\((p_1+p_2+p_3+p_4+p_5+p_6)^n=1^n\)为\(n\)次抽样全部事件相互组合对应的几率和，以后使用多项式展开(注：使用多项式定理展开，因为多项式定理不在本节说起范围内，很少赘述)，若是它不是掷骰子，而是一个有\(n\)种可能的问题，会获得一个多项式展开的公式
\[ P(X_1 = x_1,\ldots,X_k = x_k) = \begin{cases} {\frac{n!}{x_1!\cdots{x_k!}}}(p^{x_1}\cdots{p^{x_k})} \quad when\sum_{i=1}^kx_i=n\\ 0 \quad otherwise \\ \end{cases} \]
这个多项式表示\(X_1\)出现\(x_1\)次，\(X_2\)出现\(x_2\)次，\(\ldots\)，\(X_k\)出现\(x_k\)次的出现几率，这样就获得了上述所示的多项分布的多项展开式公式。

5、伯努利分布（Bernoulli Distribution）

5.1 伯努利分布简介

伯努利分布是一个二值离散分布，结果只有\(0\)和\(1\)两种。

随即变量\(X\)为\(1\)的几率为\(p\)，则为\(0\)的几率为\(q=1-p\)，能够用公式表示为
\[ f(x) = p^x(1-p)^{1-x} = \begin{cases} p, \quad\quad x=1 \\ 1-p, \quad x=0 \\ \end{cases} \]

5.2 伯努利分布的指望值和方差

伯努利分布的指望值为
\[ \begin{align} E(X) & = \sum_{i=0}^1x_if(x) \\ & = 1*p+0*(1-p) \\ & = p+0 \\ & = p \\ \end{align} \]
伯努利分布的方差为
\[ \begin{align} D(x) & = \sum_{i=0}^1(x_i - E(x))^2f(x) \\ & = (1-E(x))^2*p + (0-E(x)^2*(1-p) \\ & = (1-p)^2*p + (0-p)^2*(1-p) \\ & = p - p^2 \\ & = p(1-p) \\ & = pq \end{align} \]

6、正态(高斯)分布（Normal(Gaussian) Distribution）

6.1 正态分布的几率密度函数图像

其中红线表示的是标准正态分布图像。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

mu1 = 0
sig1 = 1
mu2 = 0
sig2 = 2

x = np.arange(-5, 5, 0.1)
y1 = stats.norm.pdf(x, mu1, sig1)
y2 = stats.norm.pdf(x, mu2, sig2)
plt.plot(x, y1, 'r-', label='$\mu=0,\sigma^2=1$')
plt.plot(x, y2, 'b-', label='$\mu=0,\sigma^2=2$')
plt.legend()
plt.show()

6.2 正态分布简介

正态分布也称做高斯分布，是最多见的一种分布，其几率密度函数为
\[ f(x;\mu,\sigma) = {\frac {1} {\sqrt{2\pi\sigma^2}} } e^{(-{\frac {(x - \mu)^2} {2\sigma^2}})} \]
若是一个随即变量\(X\)服从该分布，能够写做\(X ~ { N(\mu ,\sigma ^{2})} N(\mu, \sigma^2)\)。

当\(\mu=0,\sigma=1\)时的正态分布称做标准正态分布，这个分布能简化为
\[ f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right) \]
标准正态分布曲线区间面积计算
\[ f(|x-\mu|<\sigma) = 0.6826 \\ f(|x-\mu|<2\sigma) = 0.9544 \\ f(|x-\mu|<3\sigma) = 0.9974 \\ \]

6.3 中心极限定理与正态分布

中心极限定理1：把许多未知的小做用加起来看做一个变量，这个变量服从正态分布
中心极限定理2：“大量统计独立的随即变量的和”的分布趋于正态分布

7、泊松分布（Poisson Distribution）

7.1 泊松分布的几率质量函数图像

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

lambd = 2.5

x = np.arange(0, 10)
y = stats.poisson.pmf(x, lambd)
plt.plot(x, y, label='$\lambda=2.5$')
plt.legend()
plt.show()

8、二项分布（Binomial Distributio）

8.1 二项分布的几率质量函数图像

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

n = 8
p = 0.4

x = np.arange(0, 20)
y = stats.binom.pmf(x, n, p)
plt.plot(x, y, 'o-', label='$n=8,p=0.4$')
plt.legend()
plt.show()

8.2 二项分布简介

二项分布是\(n\)次独立的二值实验(伯努利实验)中成功的次数的离散值几率分布(\(n\)次伯努利实验，一次伯努利实验获得一个伯努利分布)。

随机变量\(X\)服从参数\(n\)和\(p\)的二项分布记做：\(B(n,p)\)。\(n\)次实验中\(k\)次成功的几率质量函数为
\[ f(k;n,p) = C_n^kp^k(1-p)^{n-k} \]
其中\(C_n^k\)是二项式系数：\(C_n^k = {\frac{n!}{k!(n-k)!}}\)

二项分布来源于牛顿二项式
\[ (a+b)^n = \sum_{k=0}^nC_n^ka^kb^{n-k} \]

8.3 二项分布与伯努利分布

二项分布的指望是伯努利分布指望的\(n\)倍
\[ E(x) = np \]
二项分布的方差是伯努利分布方差的\(n\)倍
\[ D(x) = np(1-p) \]

9、贝塔分布（Beta Distribution）

9.1 贝塔分布的几率密度函数图像

from scipy import stats
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

a = 0.4
b = 0.6

x = np.arange(0.01, 1, 0.01)
y = stats.beta.pdf(x, a, b)
plt.plot(x, y, label='a=0.4,b=0.6')
plt.show()

10、几何分布(负二项分布)（Geometric Distribution）

10.1 几何分布几率质量函数图像

11、狄利克雷分布(多项分布的共轭分布)（Dirichlet distribution）

12、超几何分布（Hypergeometric Distribution）

十3、指数分布（Exponential Distribution）

13.1 指数分布几率密度函数图像

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

lambd = 0.6

x = np.arange(0, 10, 0.1)
y = lambd * np.exp(-lambd*x)
plt.plot(x, y, label='$\lambda=0.6$')
plt.legend()
plt.show()