回归分析与相关分析的区别和联系

原文连接:http://tecdat.cn/?p=8508

在本节中,咱们将首先讨论相关性分析,它用于量化两个连续变量之间的关联(例如,独立变量与因变量之间或两个独立变量之间)。回归分析是评估结果变量与一个或多个风险因素或混杂变量之间关系的相关技术。结果变量也被称为应答或因变量,风险因素和混杂因素被称为预测因子或解释性或独立变量。在回归分析中,因变量表示为“ _y”_,自变量表示为“ _x”_”。测试

相关分析

在相关分析中,咱们估计了样本相关系数,更具体地说是Pearson乘积矩相关系数。样本相关系数,表示为r,spa

介于-1和+1之间,并量化两个变量之间的线性关联的方向和强度。两个变量之间的相关性多是正的(即一个变量的较高水平与另外一个变量的较高水平相关)或负的(即一个变量的较高水平与另外一个变量的较低水平相关)。3d

相关系数的符号表示关联的方向。相关系数的大小表示关联的强度。blog

例如,r = 0.9的相关性代表两个变量之间强烈的正相关,而r = -0.2的相关性代表弱相关性。接近于零的相关性代表两个连续变量之间没有线性关联。rem

须要注意的是,两个连续变量之间可能存在非线性关联,但相关系数的计算不会检测到这一点。所以,在计算相关系数以前仔细评估数据老是很重要的。图形显示对探索变量之间的关联特别有用。get

下图显示了四个假设情景,其中一个连续变量沿着X轴绘制,另外一个沿着Y轴绘制。it

情景1描述了强烈的正相关(r = 0.9),相似于咱们能够看到的婴儿出生体重与出生体重之间的相关性。class

情景2描述了咱们可能指望看到的年龄与体重指数(其随着年龄增长而增长)之间的较弱关联(r = 0,2)。变量

情景3可能代表青少年媒体暴露的程度与青少年发起性行为的年龄之间缺少联系(r大约为0)。im

情景4可能描述了每周有氧运动小时数与体脂百分比之间一般观察到的强烈负相关(r = -0.9)。

示例 - 妊娠期和出生体重的相关性

一项小型研究涉及17名婴儿,以调查出生时的胎龄(以周为单位)和出生体重(以克为单位)之间的关联。

咱们但愿估计胎龄与婴儿出生体重之间的关系。在这个例子中,出生体重是因变量,孕龄是自变量。所以y =出生体重和x =胎龄。数据显示在下图中的散点图中。

每一个点表明一个(x,y)对(在这种状况下,孕周,以周为单位,出生体重以克为单位)。请注意,独立变量位于水平轴(或X轴)上,因变量位于垂直轴(或Y轴)上。散点图显示胎龄与出生体重之间存在正向或直接关联。胎龄越短的婴儿出生体重越低,胎龄越长的婴儿出生体重越高的可能性越大。

x和y的方差测量其各自样本均值附近的x分数和y分数的变化性(

正如咱们对孕龄所作的那样计算出生体重的方差,以下表所示。

计算总结以下。请注意,咱们只是简单地将平均孕龄和出生体重的误差从上表中的两张表中复制到下表中并进行相乘。

绝不奇怪,样本相关系数代表强正相关。

正如咱们所指出的,样本相关系数范围从-1到+1。在实践中,对于正面(或负面)关联而言,有意义的相关性(即临床上或实际上重要的相关性)可小至0.4(或-0.4)。还有统计测试来肯定观察到的相关性是否具备统计显着性(即统计显着性不一样于零)。

相关文章
相关标签/搜索