本文摘自《概率论和数理统计》 陈希孺著 中国科学技术大学出版社
协方差和相关系数
现在我们来考虑多维随机向量的数字特征。以二维的情况为例,设
(X,Y)
为二维随机向量。
X,Y
本身都是一维随机变量,可以定义为其均值、方差,在本文中我们记
E(X)=m1,E(Y)=m2,Var(X)=σ21,Var(Y)=σ22
协方差定义
我们称
E[(X−m1)(Y−m2)]
为
X,Y
的协方差,并记为
Cov(X,Y)∗
。
“协”即“协同”的意思。
X
的方差是
X−m1
与
X−m1
的乘积的期望,如今把一个
X−m1
换为
Y−m2
,其形式接近方差,又有
X,Y
二者的参与,由此得出协方差的名称。由定义看出,
Cov(X,Y)
与
X,Y
的次序无关,即
Cov(X,Y)=Cov(Y,X)
。可直接由定义得到协方差的一些简单性质。例如,若
c1,c2,c3,c4
都是常数,则,
Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)
公式(1)
又易知:
Cov(X,Y)=E(XY)−m1m2
公式(2)
这些简单的证明就不在这里证明了。
协方差的重要性质
定理1
- 若
X,Y
独立,则
Cov(X,Y)=0
-
[Cov(X,Y)]2≤σ21σ22
。等号成立仅当
X,Y
之间有严格的线性关系(即存在常熟
a,b
,使得
Y=a+bX
)时成立。
证明1
因为当
X,Y
独立的时候,
E(XY)=m1m2
,且
Cov(X,Y)=E(XY)−m1m2
,故
Cov(XY)=m1m2−m1m2=0
。
证明2
预备小知识:
- 若
a,b,c
为常数,
a>0
,而二次三项式
at2+2bt+c
对
t
任何实值都非负,则必有
ac≥b2
。(二次函数没有实根 )
- 如果随机变量
Z
只能够非负值,而
E(Z)=0
,则
Z=0
。
证明小知识1:注意到若
ac<b2
,则
at2+2bt+c=0
有两个不同的实根
t1<t2
,因而
at2+2bt+c=a(t−t1)(t−t2)
。取
t0
使
t1<t0<t2
,则有
at20+2bt0+c=a(t−t0)(t0−t2)<0
,与
at2+2bt+c
对任何
t
非负矛盾。这就证明了小知识的第一点。
证明小知识2:若
Z≠0
,则因
Z
只能取非负值,它必以一定的大于0的概率取大于0的值,这将导致
E(Z)>0
,与
E(Z)=0
的假定不符合。
现考虑:
E[t(X−m1)+(Y−m2)]2=σ21t2+2Cov(X,Y)t+σ22
公式(3)
由于此等式左边是一个非负随机变量的均值,故它对任何
t
非负。按预备知识1,有
σ21σ22≥[Cov(X,Y)]2
公式(4)
进一步,如果公式(4)等号成立,则公式(3)右边等于
(σ1t±σ2)2
。
±
号视
Cov(X,Y)>0
或
<0
而定,为确定符合,暂设
Cov(X,Y)>0
,则公式(3)右边为
(σ1t+σ2)2
。此式在
t=t0=−σ2/σ1
时为0。以
t=t0
带入公式(3),有:
E[t0(X−m1)+(Y−m2)]2=0
再按预备知识2,即知
t0(X−m1)+(Y−m2)=0
,因而
X,Y
之间有严格线性关系。
反之,若
X,Y
之间有严格线性关系
Y=aX+b
,则
σ22=Var(Y)=Var(aX+b)=Var(aX)=a2Var(X)=a2σ21
,
且
m2=E(Y)=aE(X)+b=am1+b
,
因而有
Y−m2=(aX+b)−(am1+b)=a(X−m1)
。
于是
Cov(X,Y)=E[(X−m1)a(X−m1)]=a[E(X−m1)]=aσ21
因此,
[Cov(X,Y)]2=a2σ4=σ21(a2σ2)=σ21σ22
即公式(4)等号成立,这就证明了定理1中第2个知识点的全部结论。
相关系数定义
定义:我们把
Cov(X,Y)σ1σ2
称为
X,Y
的相关系数,并记为
Corr(X,Y)∗
。
形式上可以把相关系数视为“标准尺度下的协方差”。变量
X,Y
的协方差作为
(X−m1)(Y−m2)
的均值,依赖于
X,Y
的度量单位,选择适当单位使
X,Y
的方差都为1,这协方差就是相关系数。这样就能更好地反应
X,Y
之间的关系,不受单位影响。
定理
- 若
X,Y
独立,则
Corr(X,Y)=0
。
-
−1≤Corr(X,Y)≤1
,或
∣Corr(X,Y)∣≤1
,等号当且仅当
X
和
Y
有严格的线性关系时能达到。
相关解释:
第一条
当
Corr(X,Y)=0
,(或
Cov(X,Y)=0
一样)时,称“
X,Y
不相关”。本定理1说明由
X,Y
的独立性推出他们的不相关。但反过来一般不成立:由
Corr(X,Y)=0
不一定有
X,Y
独立。下面是一个简单的例子。
例子:
设
(X,Y)
服从单位圆内的均匀分布,即其密度函数为:
f(x,y)=⎧⎩⎨⎪⎪π−1 ,0 ,当x2+y2<1时当x2+y2≥1时
由于
x,y
是对称的,故他们拥有相同的概率密度函数。概率密度函数的求法请往下找,这里为了排版美观将其内容放在下方。由于
X,Y
拥有相同的边缘密度函数,所以我们只求一个就可以了:
g(x)=∫1−x2√−1−x2√f(x,y)dy=∫1−x2√−1−x2√π−1dy={2π−11−x2‾‾‾‾‾‾‾√ ,0 , 当∣x∣<1时当∣x∣≥1时
这个函数关于0对称,因此其均值为0,故
E(X)=E(Y)=0
。而
Cov(X,Y)=E(XY)−m1m2=E(XY)=1π∬xydxdyx2+y2<1 =0
故
Corr(X,Y)=0
。但
X,Y
不独立,因为联合密度
f(x,y)
不等于其边缘密度之积
g(x)g(y)
。
第二条
相关系数也常称为“线性相关系数”。这是因为,实际上相关系数并不是刻画了
X,Y
之间“一般”关系的程度,而只是“线性关系的程度。这种说法的根据之一就在于,当且仅当
X,Y
具有严格的线性关系时,才有
∣Corr(X,Y)∣
达到最大值1.可以容易举出例子说明:即使
X
与
Y
有某种严格的函数关系但非线性关系,
∣Corr(X,Y)∣
不仅不为1,还可以为0.
例子:
设
X∼R(−12,12)
,即区间
[−12,12]
内均匀分布,而
Y=cosX
,
Y
与
X
有严格的函数关系。但因
E(X)=0
,得到:
Cov(X,Y)=E(XY)−m1m2=E(XY)=E(XcosX)=∫1/2−1/2xcosxdx=0
故,
Corr(X,Y)=0
。虽然求出来的相关系数为0,也就是所谓的“不相关”,它们之间确有着严格的关系
Y=cosX
。足见这样的相关只能指线性而言,一超出了这个范围,这个概念就失去了意义。
第三条
如果
0<∣Corr(X,Y)∣<1
,则解释为:
X,Y
之间有“一定程度的”线性关系而非严格的线性关系。何谓“一定程度”的线性关系?我们可以用下面的图来说明一下。在这三幅图中,我们都假定
(X,Y)
服从所画区域A内的均匀分布(即联合概率密度
f(x,y)
在A内为
∣A∣−1
,在A外为0,
∣A∣
为区域A的面积)。在这三张图中,
X,Y
都没有严格的线性关系,因为由
X
的值不能决定
Y
的值。可是,由这几个图我们都能“感觉”出,
X,Y
之间存在着一种线性的“趋势”。这种趋势,在图(a)中已较显著且是正向的(
X
增加
Y
倾向于增加),这相应于
Corr(X,Y)
大比较显著地大于0。在(b)中,这种线性趋势比(a)更明显,程度更大,反映
∣Corr(X,Y)∣
比(a)的情况更大,但为负向的。至于(c),则多少有一点线性倾向,但已经很微弱,所以
Corr(X,Y)
虽然大于0,但是很接近0。

边缘密度函数
概率密度函数的求法如下:设
X=(X1,⋯,Xn)
有概率密度函数
f(x1,⋯,xn)
,�56em, -0.606em); top: -2.564em; left: 0em;">Xn)有概率密度函数
f(x1,⋯,xn)
,为求分量
Xi
的概率密度函数,只需要把
f(x1,⋯,xn)
中的
x