最大似然估计、n阶矩、协方差（矩阵）、（多元）高斯分布学习摘要

时间 2020-06-22

原文原文链接

最大似然估计html

似然与几率算法

在统计学中，似然函数（likelihood function，一般简写为likelihood，似然）和几率（Probability）是两个不一样的概念。几率是在特定环境下某件事情发生的可能性，也就是结果没有产生以前依据环境所对应的参数来预测某件事情发生的可能性，好比抛硬币，抛以前咱们不知道最后是哪一面朝上，可是根据硬币的性质咱们能够推测任何一面朝上的可能性均为50%，这个几率只有在抛硬币以前才是有意义的，抛完硬币后的结果即是肯定的；而似然恰好相反，是在肯定的结果下去推测产生这个结果的可能环境（参数），仍是抛硬币的例子，假设咱们随机抛掷一枚硬币1,000次，结果500次人头朝上，500次数字朝上（实际状况通常不会这么理想，这里只是举个例子），咱们很容易判断这是一枚标准的硬币，两面朝上的几率均为50%，这个过程就是咱们根据结果来判断这个事情自己的性质（参数），也就是似然。ide

结果和参数相互对应的时候，似然和几率在数值上是相等的，若是用 θ 表示环境对应的参数，x 表示结果，那么几率能够表示为：函数

P(x | θ) spa

是条件几率的表示方法，θ是前置条件，理解为在θ 的前提下，事件 x 发生的几率，相对应的似然能够表示为：.net

L(θ | x) 3d

理解为已知结果为 x ，参数为θ (似然函数里θ 是变量，这里说的参数是相对与几率而言的)对应的几率。orm

最大似然估计htm

似然函数的最大值意味着什么？让咱们回到几率和似然的定义，几率描述的是在必定条件下某个事件发生的可能性，几率越大说明这件事情越可能会发生；而似然描述的是结果已知的状况下，该事件在不一样条件下发生的可能性，似然函数的值越大说明该事件在对应的条件下发生的可能性越大。blog

最大值似然估计量和极大值似然估计量的区别

最大似然估计量是样本的函数，若把样本的观测值 x₁，...， x_n带入到统计量的表达式中，得出的就是最大似然估计值。前者是个随机变量，后者是一个肯定的值，没有随机性。

n阶中心矩

设X是随机变量，则称

μ k (X) = E (X - E (X)) k

为X的k阶中心距。

当中心距中的E(X)为0时，此时为k阶原点矩，即原点矩是中心距的特殊状况。

一阶原点矩就是数学指望，二阶中心距就是方差，在实际中经常使用低阶矩，高于四阶矩极少使用。

协方差（矩阵）

协方差用于描述两个变量的相关性

Cov(X, Y) = E[ [X−E(X)][Y−E(Y)] ]

相关系数
其中，D(X)为方差，E(X)为指望。

ρ_XY=0, 两个变量不相关

协方差矩阵

先从二维随机变量讲起，二维随机变量（X₁，X₂）有四个二阶中心矩（设它们都存在），分别记为：

c₁₁ = E{ [X₁ - E(X₁)]² }

c₁₂ = E{ [X₁ - E(X₁)][X₂ - E(X₂)] }

c₂₁ = E{ [X₂ - E(X₂)][X₁ - E(X₁)] }

c₂₂ = E{ [X₂ - E(X₂)]² }

将它们排列成矩阵的形式

扩展到多维：

设n维随机变量(X₁, X₂, ..., X_n)的二阶混合中心矩 c_ij = E{ [X_i - E(X_i)][X_j - E(X_j)] }，i,j=1,2,...,n 都存在，则称矩阵

为n维随机变量(X₁, X₂, ..., X_n)的协方差矩阵。因为c_ij = c_ji（i≠j；ii,j=1,2,...,n），于是上述矩阵是一个对称矩阵。

（多元）高斯分布

正态分布（normal distribution）又名高斯分布（Gaussian distribution），是一个很是常见的连续几率分布。正态分布在统计学上十分重要，常常用在天然和社会科学来表明一个不明的随机变量。

则其几率密度函数的通常形式为

正态分布的数学指望值或指望值 $\mu$ 等于位置参数，决定了分布的位置；其方差 $\sigma^2$ 的开平方或标准差 $\sigma$ 等于尺度参数，决定了分布的幅度。

正态分布的几率密度函数曲线呈钟形，所以人们又常常称之为钟形曲线（相似于寺庙里的大钟，所以得名）。咱们一般所说的标准正态分布N(0, 1)是位置参数 $\mu =0$ ，尺度参数 $\sigma^2 = 1$ 的正态分布。

标准正态分布标准化到通常情形，x 轴方向作 σ 倍延拓的同时， y 轴应该压缩 σ 倍（乘以 1/σ）。

几率密度函数

高斯分布一些重要的量：

1. 密度函数关于平均值对称；
2. 平均值与它的众数（statistical mode）以及中位数（median）相等；
3. 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内；
4. 95.449974%的面积在平均值左右两个标准差2σ的范围内；
5. 99.730020%的面积在平均值左右三个标准差3σ的范围。

其中第3-5条称为“68-95-99.7法则” 或 “经验法则”。

几率分布函数

正态分布的分布函数没有解析表达式，它的值能够经过数值积分、泰勒级数或者渐进序列近似获得。

中心极限定理

正态分布有一个很重要的性质：在特定条件下，大量统计独立的随机变量的和的分布趋于正态分布，这就是中心极限定理。中心极限定理的重要意义在于，依据这必定理的结论，其它几率分布可以用正态分布做为近似。

高斯分布线性组合的重要性质

为何数据科学家都喜欢高斯分布

天然科学和社会科学中有极其大量的过程自然遵循高斯分布。即便当它们并不遵循高斯分布的时候，高斯分布也每每提供最佳的逼近。数学上的缘由即是中心极限定理。中心极限定理代表，知足必定条件时，大量相互独立的随机变量经适当标准化后，收敛于高斯分布。这必定理意味着专门为高斯模型开发的大量科学方法和统计学方法一样适用于可能牵涉其余类型分布的广阔领域内的问题。

另外，高斯分布在一些转换后仍然是高斯分布：

高斯函数经傅里叶变换后，所得仍为高斯函数。

两个高斯函数的积仍然是高斯函数。

两个高斯函数的卷积仍然是高斯函数。

两个符合高斯分布的独立随机变量之和仍然符合高斯分布。

对每一个高斯模型逼近而言，可能存在一个提供更好的逼近的复杂多参数分布。然而，咱们仍然选择高斯模型，由于它大大简化了数学！

如何检查你的数据是否是高斯分布

· 看直方图！是否是看起来像钟形？

· 计算描述性汇总度量 - 平均值，中位数和模式是否类似？(此处不大明白)

· 2/3的观察是否位于平均值的±1*标准差内？ 95％的观察值是否在平均值的±2*标准差范围内？

特征选择

由于咱们创建模型的基础是假设特诊知足高斯分布，那么要是特征不符合高斯分布呢？答案固然是整成高斯分布啊！
咱们一开始拿到的特征的分布多是这样的：

咱们能够经过对数操做或者其余操做将他转化为高斯分布，例如，上面的特征经对数操做后造成的分布就很是接近于高斯分布：

多元高斯分布

独立多元正态分布

先假设n个变量互不相关，且服从正态分布（维度不相关多元正态分布），各个维度的均值，方差

根据联合几率密度公式：

这样多元正态分布又能够写成一元那种漂亮的形式了(注意一元与多元的差异)：

引入协方差矩阵表示σ_z代入标准化公式

详细解释说明见：The Multivariate normal distribution，下同（相关多元高斯分布）

最大似然估计、n阶矩、协方差（矩阵）、（多元）高斯分布 学习摘要

最大似然估计、n阶矩、协方差（矩阵）、（多元）高斯分布学习摘要