首先给出几个定义:函数
指望: 反应了函数f(x)在某个分布P(x)下的平均表现, 记为: $E_{x \sim P}[f(x)]=\int{p(x)f(x)dx}$
协方差: 反应两个变量之间线性相关的强度,记为$Cov(f(x),g(x))= E[(f(x)-E[f(x)])(g(x)-E(g(x)))]$
关于协方差的特性:spa
相关系数$\rho_{xy}$: 将每一个变量归一化, 之衡量变量间的相关性, 不关注变量尺度大小, 公式以下:
$$\rho_{xy} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$$3d
通俗地讲, 协方差能够理解为:两个变量在变化过程当中是同方向变化?仍是反方向变化?同向或反向程度如何?
你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。
你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。
从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。blog
协方差公式化简一下: $Cov(X,Y) = E[(X-\mu _x)(Y-\mu _y)]$
若是有X,Y两个变量,每一个时刻的“X值与其均值之差”乘以“Y值与其均值之差”获得一个乘积,再对这每时刻的乘积求和并求出均值(实际上是求“指望”,但就不引伸太多新概念了,简单认为就是求均值了.图片
下面举个例子来讲明吧:ip
好比有两个变量X,Y,观察t1-t7(7个时刻)他们的变化状况。
简单作了个图:分别用红点和绿点表示X、Y,横轴是时间。能够看到X,Y均围绕各自的均值运动,而且很明显是同向变化的。rem
这时,咱们发现每一时刻$X-\mu _{x}$的值与$Y-\mu _{y}$的值的“正负号”必定相同(以下图:好比t1时刻,他们同为正,t2时刻他们同为负):it
因此,像上图那样,当他们同向变化时,$X-\mu _{x}$与$Y-\mu _{y}$的乘积为正。这样,当你把t1-t7时刻$X-\mu _{x}$与$Y-\mu _{y}$的乘积加在一块儿,求平均后也就是正数了。class
若是反向运动呢?
很明显,$X-\mu _{x}$的值与$Y-\mu _{y}$的值的“正负号”必定相反,因而$X-\mu _{x}$与$Y-\mu _{y}$的乘积就是负值了。这样当你把t1-t7时刻$X-\mu _{x}$与$Y-\mu _{y}$的乘积加在一块儿,求平均的时候也就是负数了。变量
固然上面说的是两种特殊状况,不少时候X,Y的运动是不规律的,好比:
这时,极可能某一时刻$X-\mu _{x}$的值与$Y-\mu _{y}$的值乘积为正,另一个时刻$X-\mu _{x}$的值与$Y-\mu _{y}$的值乘积为负。
这时,极可能某一时刻$X-\mu _{x}$的值与$Y-\mu _{y}$的值乘积为正,另一个时刻$X-\mu _{x}$的值与$Y-\mu _{y}$的值乘积为负。
因此,t1-t7时刻中,$X-\mu _{x}$与$Y-\mu _{y}$的乘积为正的越多,说明同向变化的次数越多,也即同向程度越高。反之亦然。
总结一下,若是协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;若是协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。
那若是X,Y同向变化,但X大于均值,Y小于均值,那$X-\mu _{x}$与$Y-\mu _{y}$的乘积为负值啊?这不是矛盾了吗?
这种状况是有可能出现的,好比:
能够看到,t1时刻,$X-\mu _{x}$与$Y-\mu _{y}$的符号相反,他们的乘积为负值。
可是,整体看,这两个变量的协方差仍然是正的,由于你还要计算t2,t3……t7时刻$X-\mu _{x}$与$Y-\mu _{y}$的乘积,而后再把这7个时刻的乘积求和作均值,才是最后X,Y的协方差。1个负、6个正,显然最后协方差很大可能性是正的。
因此t1时刻$X-\mu _{x}$与$Y-\mu _{y}$的乘积为负值,并不能说明他们反向运动,要结合总体的状况来判断。
那么你可能又要问了,既然都是同向变化,那t1时刻$X-\mu _{x}$与$Y-\mu _{y}$的乘积为负值、其余时刻乘积为正的这种状况,与,t1-t7时刻$X-\mu _{x}$与$Y-\mu _{y}$的乘积均为正值的状况,到底有什么差别呢?这点其实前面也解释过了,差别就是:第一种状况的同向程度不如第二种状况的同向程度大(第一种状况6正1负,第二种状况7正,因此第一种状况的协方差小于第二种状况的协方差,第一种状况X,Y变化的同向程度要小于第二种状况)。
另外,若是你还钻牛角尖,说若是t1,t2,t3……t7时刻X,Y都在增大,并且X都比均值大,Y都比均值小,这种状况协方差不就是负的了?7个负值求平均确定是负值啊?可是X,Y都是增大的,都是同向变化的,这不就矛盾了?
这个更好解释了:这种状况不可能出现!
由于,你的均值算错了……
X,Y的值应该均匀的分布在均值两侧才对,不可能都比均值大,或都比均值小。
因此,实际它的图应该是下面这样的:
发现没有,又变成$X-\mu _{x}$与$Y-\mu _{y}$的符号相同的状况了~有没有种被大天然战胜的感受~
好了,如今,对于协方差应该有点感受了吧?
对于相关系数,咱们从它的公式入手。通常状况下,相关系数的公式为:
$$\rho = \frac{Cov(X,Y}{\sigma_X\sigma_Y}$$
相关系数也能够当作协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
既然是一种特殊的协方差,那它:
比较抽象,下面仍是举个例子来讲明:
首先,仍是承接上文中的变量X、Y变化的示意图(X为红点,Y为绿点),来看两种状况:
很容易就能够看出以上两种状况X,Y都是同向变化的,而这个“同向变化”,有个很是显著特征:
X、Y同向变化的过程,具备极高的类似度!不管第一仍是第二种状况下,都是:t1时刻X、Y都大于均值,t2时刻X、Y都变小且小于均值,t3时刻X、Y继续变小且小于均值,t4时刻X、Y变大但仍小于均值,t5时刻X、Y变大且大于均值……
但是,计算一下他们的协方差,
协方差差出了一万倍,只能从两个协方差都是正数判断出两种状况下X、Y都是同向变化,可是,一点也看不出两种状况下X、Y的变化都具备类似性这一特色。
这是为何呢?
由于以上两种状况下,在X、Y两个变量同向变化时,X变化的幅度不一样,这样,两种状况的协方差更多的被变量的变化幅度所影响了。
因此,为了能准确的研究两个变量在变化过程当中的类似程度,咱们就要把变化幅度对协方差的影响,从协方差中剔除掉。因而,相关系数就横空出世了,就有了最开始相关系数的公式:
$$\rho = \frac{Cov(X,Y}{\sigma_X\sigma_Y}$$
那么为何要经过除以标准差的方式来剔除变化幅度的影响呢?我们简单从标准差公式看一下:
$$\sigma_X=\sqrt{E((X-\mu_x)^2)}$$
从公式能够看出,标准差计算方法为,每一时刻变量值与变量均值之差再平方,求得一个数值,再将每一时刻这个数值相加后求平均,再开方。
“变量值与变量均值之差”X-mu _{x}是什么呢?就是偏离均值的幅度:
那为什么要对它作平方呢?由于有时候变量值与均值是反向偏离的(见下图),$X-\mu _{x}$是个负数,平方后,就能够把负号消除了。
这样在后面求平均时,每一项数值才不会被正负抵消掉,最后求出的平均值才能更好的体现出每次变化偏离均值的状况。
固然,最后求出平均值后并无结束,由于刚才为了消除负号,把$X-\mu _{x}$进行了平方,那最后确定要把求出的均值开方,将这个偏离均值的幅度还原回原来的量级。因而就有了下面标准差的公式:
$$\sigma_X=\sqrt{E((X-\mu_x)^2)}$$
因此标准差描述了变量在总体变化过程当中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的状况。这也就是相关系数的公式含义了。
同时,你能够反过来想象一下:既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。因而,很明显的,相关系数不像协方差同样能够在 $+\infty 到-\infty $ 间变化,它只能在+1到-1之间变化(相关系数的取值范围在+1到-1之间变化能够经过施瓦茨不等式来证实.
总结一下,对于两个变量X、Y:
有了上面的背景,咱们再回到最初的变量X、Y的例子中,能够先看一下第一种状况的相关系数:
说明第一种状况下,X的变化与Y的变化具备很高的类似度,并且已经接近彻底正相关了,X、Y几乎就是线性变化的。
那第二种状况呢?
说明第二种状况下,虽然X的变化幅度比第一种状况X的变化幅度小了10000倍,可是丝毫没有改变“X的变化与Y的变化具备很高的类似度”这一结论。同时,因为第一种、第二种状况的相关系数是相等的,所以在这两种状况下,X、Y的变化过程有着一样的类似度。