求解协方差矩阵

如何求协方差矩阵

一. 协方差定义

X、Y 是两个随机变量,X、Y 的协方差 cov(X, Y) 定义为:函数

其中:spa

 、3d

 

. 协方差矩阵定义

矩阵中的数据按行排列与按列排列求出的协方差矩阵是不一样的,这里默认数据是按行排列。即每一行是一个observation(or sample),那么每一列就是一个随机变量。协方差对角线处的元素表示的是方差,这个关系咱们记住就好了。好比目前咱们从以前的两个变量过渡成了三个变量,则咱们的协方差矩阵能够写为:blog

从上面咱们能够清楚的看到对角线上的数值是cov(x,x)=var(x),cov(y,y)=var(y),cov(y,y)=var(z),所以对角线处是咱们的方差,有一个函数trace()专门则用于表示提取咱们矩阵当中的对角线处的元素。下面咱们把用cov函数表示的形式变化为更加普世的形式也就是用aij来表示咱们的每个协方差的数值。io

 

协方差矩阵:class

协方差矩阵的维度等于随机变量的个数,即每个 observation 的维度。在某些场合前边也会出现 1 / m,而不是 1 / (m - 1).变量

. 求解协方差矩阵的步骤

举个例子,矩阵 X 按行排列:im

 
 

1. 求每一个维度的平均值

 
 

2. 将 X 的每一列减去平均值

 
 
其中:
 

3. 计算协方差矩阵

 
 
 
 
注意:
有时候在书上或者网上会看到这样的公式,协方差矩阵 Σ:
 
这里之因此会是 X * X’ 是由于原始数据集 X 是按列排列的,即:
 
 
 
备注:为何协方差矩阵的最大特征向量能使得偏差较小?
回答:由于协方差矩阵表示向量两两之间的类似度,能够理解为向量之间的关系信息。协方差矩阵保存的信息越多,偏差越小。怎么保存更多信息呢?须要说明的是特征值表明特征向量的权重,因此挑最大的几个特征向量就能保存更多的信息
相关文章
相关标签/搜索