（原创）机器学习之几率与统计（一）- 随机变量及其分布

时间 2020-06-19

标签原创机器学习几率统计随机变量及其分布繁體版

原文原文链接

目录app

1、几率公理及推论... 2ide

1. 联合几率... 2函数

2. 条件几率... 2人工智能

3. 全几率公式... 2spa

4. 贝叶斯公式... 2component

3. 几率函数pmf2教程

1.1二项分布（Binomial）... 5

1.2 Bernoulli分布... 5

1.3多项分布（Multinomial）... 5

5．中心极限定理（Central Limit Theorem, CLT）... 9

2.3根据有限个统计量估计（极大熵原理）... 10

1、几率公理及推论

1. 联合几率

对任意两个时间A和B，则有：

P(A , B) = P(A∩B) = P(B)P (A|B) = P(A)P (B|A)

2. 条件几率

当P(B)＞0时，给定B发生时，A的条件几率是：

3. 全几率公式

A₁, …, A_K为A的一个子集，则对任意事件B，有：

注：能够把B事件发生的几率看做是全部在A条件下发生B的几率的权重之和，P(A)能够当作一个权重。

4. 贝叶斯公式

　　A₁, …, A_K为A的一个子集，k=1,2, …,K。若P(B)＞0，P(A)＞0，则有

其中：为后验几率，为先验几率。

2、随机变量及其分布

1. 随机变量

随机变量是一个函数，将一个实数值映射到一个试验的每个输出。即将每个事件映射到衡量这个事件的每个数据。是随机事件与数据之间的联系起来的纽带：

　　f(事件) = 数据

　　f()称为随机变量。

　注：

　　1）数据是随机变量的具体值

　　2）统计量是数据或者随机变量的任何函数

　　3）任何随机变量的函数仍然是随机变量

2. 累积分布函数CDF

设X为一个随机变量，x为X的一具体值(即数据)，则随机变量X的累积分布函数（cumulative

distribution function, CDF）的定义：

F(X) = P(X ≤ x ) （F：R->[0,1]）

CDF包含了随机变量的全部信息。

3. 几率函数pmf

离散型随机变量的几率函数（probability mass function, pmf)）的定义：

　　p(x) = P(X=x)

性质：

　　1）对于全部x∈R，p(x) ≥ 0

　　2）

　　3）CDF和pmf之间的关系：

4. 几率密度函数pdf

连续型随机变量X的几率密度函数（probability density function, pdf)）的定义：

对全部的x知足：

其中，p(x)≥0，a≤b

则称p为几率密度函数。

性质：

　　1）p(x)没必要≤1

　　2）CDF与pdf间的关系：

当F可微时，；

5. 随机变量的分布

5.1 分布的概述

单值描述来刻画某个分布的性质：

　　（1）位置描述

指望、中值、众数、分位数

　　（2）散布程度描述

方差、四分位矩(IQR)

5.2 位置描述

5.2.1指望

（1）实质

随机变量的平均值，即几率的加权平均，一阶矩。

（2）连续状况下的定义：

（3）离散状况下的定义：

（4）指望的性质

1）线性运算

E(aX + b) = aE(X) + b

2）加法规则

X₁,…,X_n是随机变量，a₁,…,a_n是常数，则：

3）乘法规则

X₁,…,X_n是相互独立的随机变量，则：

5.2.2 众数（mode）

定义：随机变量次数出现最多的位置，即随机变量出现几率最大的位置：

设随机变量X有密度p(x)，存在x₀知足：

则称x₀为随机变量X的众数。

5.2.3 中值（Median）

随机变量的累积分布函数（CDF）为0.5时的随机变量的值：

当P(X ≤ x₀ ) = 0.5 时，x₀称为随机变量X的中值。

5.2.3 分位数

定义：分位数（分位函数quantile function）是随机变量X的CDF的反函数:

其中，α∈[0,1]，inf表示下界。

性质：

1）为增函数

2）中值：

3）上下1/4分位数：，

5.3散布程度描述

5.3.1 方差

（1）k阶矩

随机变量X的k阶矩定义为 E(X^k)

（2）方差

方差，即为二阶矩:

标准差：

（3）实质

刻画随机变量X围绕均值的离散程度，方差越大，X的变化越大。

（4）方差的性质

1）

2）a,b是常数，V(aX+b) = a²V(X)

3）若是X₁,…,X_n相互独立，a₁,…,a_n为常数，则

5.3.1四分位矩(IQR)

25%分位数到75%分位数之间的区间

3、常见随机变量几率分布

1. 常见离散型随机变量

1.1 二项分布（Binomial）

n次试验，事件发生的数目X知足二项分布，记为：x ~ Bin(n,θ):

其中，组合

　特性：

　　（1）指望：μ=nθ

　　（2）方差：V=nθ(1-θ)

1.2 Bernoulli分布

若是二次分布只进行一次试验，则为Bernoulli分布。Bernoulli分布又名0-1分布，若试验成功则随机变量X取1，不然X取0，成功的几率为θ，即：

P(X=1) = θ，P(X=0) = 1-θ，θ∈[0,1]

　　参数为θ的Bernoulli分布，记为x ~ Ber(θ):

= (其中，x=0,1)

　　特性：

　　（1）指望：μ=θ

　　（2）方差：V=θ(1-θ)

1.3多项分布（Multinomial）

假设某个试验一共可能发生j个事件，第j个事件发生的几率为θ_j，令θ= (θ₁, …,θ_k)，若是一共进行n次试验，X=(x₁, …, x_k)为随机向量，其中x_k表示事件发生次数，X的分布为多项分布:x~Mu(n, θ)。

2．常见离散型随机变量

2.1均匀分布

X ~ Uniform(a, b):

2.2高斯分布

X ~ N (μ, δ² )：(μ：指望，δ²：方差):

　　特性：

　　　　（1）高斯分布的CDF：

　　　　（2）当μ=0，δ²=1时，称为标准正态分布，记为Z ~ N(0，1)，标准化：

2.3 Laplace分布

拉布拉斯分布的pdf：

特性：

　　（1）指望：μ

　　（2）方差：2b²

　　（3）拉布拉斯分布比高斯分布更鲁棒，高斯分布对噪声敏感。

2.4 Gamma分布

x ~ Ga(shape=a, rate=b)：

其中Γ(x)为Gamma函数，a为形状参数，b为比率度参数。

或者：

反Gamma分布（反Gamma分布用于正态分布方差的共轭先验）：

其中Gamma函数为：

特性：

（1） Gamma分布

1）均值：a/b

2）众数：(a-1)/b

3）方差：a/b²

（2）反Gamma分布

1）均值：b/(a-1)

2）众数：b/(a+1)

3）方差：b²/(a-1)²(a-2)

2.5 Beta分布

其中：

特性：

1）均值：a/(a+b)

2）众数：(a-1)/(a+b-2)

3）方差：(ab)/(a+b)²(a+b+1)

2.6 Dirichlet分布

将Beta分布扩展到多维，即获得Dirichlet分布。其pdf为

其中：

注：Dirichlet分布在文档分析中的主题模型LDA（Latent Dirichlet Allocation ）用到。

特性：

2.7混合分布

混合分布(mixture distribution)由一些组件(component)分布构成，由哪一个组件分布构成取决于从一个多项分布中采样的结果。每次实验，样本是：

其中p(c)是对各组件的一个多项(Multinomial)分布.

2.8混合高斯模型

高斯混合模型（Gaussian Mixture Model，GMM）是几率密度的万能近似器（universal approximator），任何平滑的几率密度均可以用具备足够多组件的高斯混合模型以任意精度逼近：

（1）组件p(x|c=k)是高斯分布

（2）每一个组件用本身的参数：均值、方差-协方差矩阵

（3）组件也能够共享参数：每一个组件的方差-协方差矩阵相等

4、抽样分布

1. 独立同分布（IID）

定义：

知足：

随机变量X₁，…,X_N互相独立且有相同的边缘分布F(记为X₁，…,X_N~ F)

的随机变量X₁，…,X_N，称为独立同分布（Independent Identically Distribution, IID）样本。

诠释：

IID表示X₁，…,X_N是从相同的分布独立抽样，也称X₁，…,X_N是分布F的随机样本，若F有密

度p，也可记为X₁，…,X_N ~ F

2．抽样分布

假设X₁，…,X_N为独立同分布样本（IID），其均值和方差分别为μ和δ²。则样本均值：

为一统计量，也是随机变量，所以也可对其进行分布进行描述，该分布称为统计量的抽样分布。

3．样本均值和样本方差

假设X₁，…,X_N为独立同分布样本（IID），

则样本的指望为：

样本的方差为：

又有随机变量X₁，…,X_N的指望μ=E(X_i)，方差δ²=V(X_i)，则有

　　　　说明了和分别为μ和δ²的很好估计（无偏估计）：样本数N越大，样本均值越接近随机变量实际的均值μ。

4．弱大数定理（WLLN）

独立同分布（IID）的随机变量X₁，…,X_N，其指望：μ=E(X_i)，其方差：δ²=V(X_i)

（1）样本均值

依几率收敛于指望μ，即对任意ε＞0，有：

称为μ的一致估计。

（2）样本方差也依几率收敛于方差δ²

（3）实质：当样本的数量足够大时，样本的均值和方差收敛于随机变量的指望和方差。

5．中心极限定理（Central Limit Theorem, CLT）

独立同分布（IID）的随机变量X₁，…,X_N，其指望：μ=E(X_i)，其方差：δ²=V(X_i)

则样本均值：

近似服从指望为μ，方差为δ²/N的正态分布，即

其中Z为标准正态分布，记为：

其中，标准差δ可用样本的标准差代替，即

其中

实质：任意随机变量的分布，其样本均值近似服从正态分布。

5、分布估计

1．参数估计

已知分布的类型，但参数未知。

2．非参数估计

2.1直方图估计

方法：

（1）将输入空间划分为M个箱子(bin), 箱子的宽度为h=1/M，则这些箱子为：

（2）计算落入箱子b中的样本数目V_b，则落入箱子b的比率为：

（3）则直方图估计为：

其I(x ∈ B_b) 表示落到箱子中的计数值。

直方图估计的缺点：箱中每一个样本的权重相等，所以直方图不连续。

2.2核密度估计

2.2.1基本思想

每一个样本的权重随其到目标点的距离平滑衰减。

2.2.2核密度估计的定义

其中，参数h称为带宽(bandwidth)，K为任意平滑的核函数，其知足：

2.2.3实质

对样本点施以不一样的权，用加权来代替一般的计数。

2.2.4常见的核函数

（1）Epanechnikov 核

使风险最小的核函数，亦被称为抛物面核或者叫作二次核函数。

（2）高斯核

2.3根据有限个统计量估计（极大熵原理）

2.3.1极大熵原理

（1）主要思想

　　　　在只掌握关于未知分布的部分知识时，应该选取符合这些知识但熵值最大的几率分布。

（2）实质

约束：符合已知知识（特征的统计量）

极大熵：关于未知分布最合理的推断＝符合已知知识最不肯定或最随机的推断

2.3.2充分统计量

（1）统计量

给定数据x^N= (x₁, …, x_N)，假设其统计量为：

例如：

（2）充分统计量

统计量（向量）包含了计算参数所需的全部信息：

只要知道了充分统计量，就能够估计处出样本。

2.3.3指数分布族

给定训练样本x^N= (x₁, …, x_N) ~ p(x)，使用极大熵原理，推导出其密度q(x)的估计：

（1）获得数据的M个统计量：

（2）当样本数N增长时，样本均值会接近真正的指望：

咱们使用密度函数q(x)来估计p(x)，则一个很合理的假设是这二者的指望相同：

（3）附加另一个约束：

（4）已知M+1个已知知识（约束），应该选取符合这些知识但熵值最大的几率分布：

则知足最大熵状况下的q(x)为：

且知足条件：

（5）使用Lagrange乘子法求解上式：

求解获得：

其中，Z为归一化常数，参数λ= (λ₁, …, λ_M)

注意：

参数能够经过MLE求解。选取的统计量越多，q(x)越接近p(x)。给定的N个有限的数据，M＜N，不然会过拟合。一般M=O(logN)。

2.3.4一个极大熵的例子

若是咱们取两个统计量：

将获得的指数分布族为高斯分布：

所以高斯分布是给定均值和协方差状况下的最大熵分布。

　　　- tany 2017年10月6日于杭州

人工智能从入门到专家教程资料：https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765