皮尔森相关系数算法

  皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大代表相关性越强。spa

定义orm

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:blog

上式定义了整体相关系数,经常使用希腊小写字母 ρ (rho) 做为表明符号。估算样本的协方差和标准差,可获得样本相关系数(样本皮尔逊系数),经常使用英文小写字母 r 表明:ci

r 亦可由
样本点的标准分数均值估计,获得与上式等价的表达式:
其中
分别是对
样本的标准分数、样本平均值和样本标准差。
 
公式详解:
  样本的简单相关系数通常用r表示,其中n 为样本量, 分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,代表两个变量是正相关,即一个变量的值越大,另外一个变量的值也会越大;若r<0,代表两个变量是负相关,即一个变量的值越大另外一个变量的值反而会越小。r 的绝对值越大代表相关性越强,要注意的是这里并不存在因果关系。若r=0,代表两个变量间不是线性相关,但有多是其余方式的相关(好比曲线方式)
  利用样本相关系数推断整体中两个变量是否相关,能够用t 统计量对整体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t 检验不显著,则不能拒绝原假设,即两个变量不是线性相关的.
 

适用范围it

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:io

(1)两个变量之间是线性关系,都是连续数据。form

(2)两个变量的整体是正态分布,或接近正态的单峰分布。class

(3)两个变量的观测值是成对的,每对观测值之间相互独立。变量

相关文章
相关标签/搜索