几率笔记12——多维正态分布的最大似然估计

时间 2019-11-06

标签几率笔记多维正态分布最大估计繁體版

原文原文链接

　　咱们在前面的章节中见识过二维正态分布，(X,Y)服从参数为μ₁, μ₂, σ₁, σ₂, ρ的二维正态分布，记做(X, Y)~N(μ₁, μ₂, σ₁, σ₂, ρ)，它的密度函数：函数

　　其中μ₁是第1维度的均值，σ₁²是第1维度的方差，ρ是将两个维度的相关性规范到-1到+1之间的统计量，称为样本的相关系数，定义为：学习

　　对于二维正态随机变量(X,Y)，X和Y相互独立的充要条件是两者的协方差为0，也就是参数ρ=0。因为一维随机变量没有是否独立一说，ρ必定是0，所以没有在一维随机变量的正态分布中体现ρ。spa

　　下图是一个标准二维正态分布和其在x-z，y-z平面的投影：3d

多维正态分布

　　如今推广到多维，为了便于表达，咱们用向量的形式表示随机变量和参数，对于n维随机变量：blog

　　这里只考虑全部维度变量互相独立的状况，即ρ=0的状况，此时密度函数可表示为：get

　　上面的结果告诉咱们，在各维度相互独立的状况下，多维正态分布的几率密度其实就是各个维度的正态分布密度函数的乘积。变量

　　在①中：bfc

　　σ_i²表示x_i的方差，如此看来，中间那个矩阵其实是协方差矩阵的逆矩阵：二维码

　　根据行列式的性质，上三角矩阵的行列式等于主对角线全部元素的乘积，斜对角矩阵固然也是一个上三角矩阵，所以协方差矩阵的行列式是：im

　　将②、③代入①中，获得最终结果：

最大似然估计量

　　n维相互独立的随机变量x服从正态分布：

　　在求最大似然估计量时和一维随机变量有所区别，根据上一节的最终结果：

　　假设有m个可观察样本，那么最大似然函数是：

　　其对数似然函数是：

　　其中m和n是已知的，C 是一个常数。

　　求极值须要对μ和∑求偏导：

　　μ和∑是矩阵，涉及到矩阵的求导法则。先看对μ的求导，lnL由3个因子组成，只有一个因子含有μ，所以：

　　其中：

　　上式中：

　　所以：

　　将该结论代入∂lnL/∂μ中：

　　μ和∑是矩阵，根据矩阵的求导法则：

　　由于∑^-1是一个对称矩阵，所以：

　　根据矩阵的求导法则：

　　将a₁，a₂代入∂lnL/∂μ 中：

　　再看对∑求偏导：

　　∑和∑^-1都是实对称矩阵，根据矩阵的求导法则，当A是实对称矩阵时：

　　再看b₂。设ω_pq是∑第p行第q列的元素，E_pq是一个第p行第q列元素为1，其它元素全为0的矩阵，E与∑^-1同阶。根据矩阵的求导公式：

　　已经知道了∑^-1是一个对称矩阵，矩阵乘法知足结合律，在不改变矩阵顺序的条件下能够任意加括号：

　　其中(∑^-1(x⁽ⁱ⁾-μ))^T是一个1*n的矩阵，(∑^-1(x⁽ⁱ⁾-μ))^T_p表示矩阵中的第p个元素；∑^-1(x⁽ⁱ⁾-μ)是一个n*1的矩阵，(∑^-1(x⁽ⁱ⁾-μ))_q表示矩阵中的第q个元素。将该结论推广到矩阵对矩阵的的求导，根据矩阵对矩阵的求导公式：

　　其中：

　　在A₁中，(∑^-1(x⁽ⁱ⁾-μ))^T是一个1*n的矩阵，(∑^-1(x⁽ⁱ⁾-μ))^T_i表示矩阵中的第i个元素，是一个标量；∑^-1(x⁽ⁱ⁾-μ)是一个n*1的矩阵，(∑^-1(x⁽ⁱ⁾-μ))_i表示矩阵中的第i个元素，也是一个标量，所以：

　　终于能够求得b₂了：

　　如今能够看看最终的似然函数：

　　I是单位矩阵，∑^-1I=∑^-1：

　　等号两侧同时左乘∑：

　　两侧同时右乘∑：

　　最终解得：

　　最终结论，多维正态分布的最大似然估计量是：

　　做者：我是8位的

　　出处：http://www.cnblogs.com/bigmonkey

　　本文以学习、研究和分享为主，如需转载，请联系本人，标明做者和出处，非商业用途！

　　扫描二维码关注公做者众号“我是8位的”