相关分析.docx - 冰点文库

资源描述

相关系数的缺点:

一个明显的缺点：

相关系数接近于1的程度与数据组数n相关，这易给人一种假象。

当n较小时，相关系数的波动较大，对有些样本相关系数的绝对值易接近于1；当n较大时，相关系数的绝对值容易偏小。

特别，当n=2时，相关系数的绝对值总为1。

在样本容量n较小时，仅凭相关系数较大就判定变量x与y间有密切的线性关系是不妥当的。

计算相关系数的基本操作

相关分析用于描述两个变量间关系的密切程度，其特点是变量不分主次，被置于同等的地位。

•在“分析”的菜单“相关”中有三个相关分析功能：

Bivariate“双变量”过程、Partial“偏相关”过程、Distances“距离”过程

（双变量相关分析、偏相关分析、相似性测度（距离））

Bivariate过程用于进行两个或多个变量间的相关分析，如为多个变量，给出两两相关的分析结果。

包括：

计算Pearson简单相关系数、T检验统计量和对应的概率P值。

Pearson简单相关系数：

对定距连续变量的数据进行计算。

如测度收入和储蓄，身高和体重。

前提条件：

要求成对数据；正态双变量；两列变量是连续变量；两列变量之间的关系是线性关系。

Spearman等级相关系数：

用于度量定序变量间的线性相关关系。

如军队教员的军衔与职称。

前提条件：

两列变量；等级顺序的测量资料；两列变量之间的关系是线性关系。

Kendall秩相关系数：

用非参数检验方法来度量定序变量间的线性相关关系。

计算基于数据的秩

例：

身高与体重

1选择分析方法

本题要求判断身高与体重两个变量间关系的密切程度，所以采用相关分析中的双变量过程。

相关分析用于描述两个变量间关系的密切程度，其特点是变量不分主次，被置于同等的地位。

2建立数据文件

设置个变量，

3用散点图初步观察两变量间有无相关趋势。

操作过程：

菜单“图形-图表构建程序”，打开图形构建器，点击“确定”，对图表进行定义；选中“散点图/点图”，再选择第一个“简单散点图”，将“简单散点图”拖到“图表预览使用实例数据”中，将变量1“身高”拖到X轴，变量2“体重”拖到Y轴；左键双击输出窗口的散点图，出现“图表编辑器”，点击“元素”→“总计拟合线”，得到下图所示散点图：

分析:

从散点图可以看出，“身高”变量和“体重”变量有明显的直线趋势，存在线性关系，可用相关分析。

因为是两个变量间的相关分析，所以用Bivariate过程。

两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述.

2正态分布检验

选择“分析”→“非参数检验”→“1－样本K－S”检验（检验样本数据是否服从某种特定的分布）→将“身高”变量和“体重”变量放入“检验变量列表框”→检验分布选择“常规”→“确定”,输出“单样本Kolmogorov-Smirnov检验”表格，如下：

检验正态分布总的可分为非参数检验和图形检验法。

表1单样本Kolmogorov-Smirnov检验

身高

年龄

正态参数a,,b

均值

153.25

13.98

标准差

10.475

1.476

最极端差别

绝对值

.103

.168

正

.067

.168

负

-.103

-.132

Kolmogorov-SmirnovZ

.648

1.064

渐近显著性（双侧）

.795

.208

a.检验分布为正态分布。

b.根据数据计算得到。

分析：

由表“单样本Kolmogorov-Smirnov检验”，可知“身高”渐进显著性（双侧）0.795>0.05，说明“身高”样本为正态分布;“体重”渐进显著性（双侧）0.208>0.05，说明“体重”样本为正态分布。

所以本题满足Pearson简单相关系数分析的前提条件：

两个变量都是数值型的数据，且两个变量成对（直接由数据文件看出）；两个变量是正态双变量（正态检验）；两列变量之间的关系是线性关系（散点图）。

所以可采用Pearson简单相关系数分析。

“变量”渐进显著性（双侧）小于0.05，那么拒绝原假设，说明样本为非正态分布，否则值越大越服从某种分布；和“”变量渐进显著性（双侧）小于0.05，那么拒绝原假设，说明样本为非正态分布，否则值越大越服从某种分布。

用Pearson简单相关系数分析，前提条件：

要求成对数据；正态双变量；两列变量是连续变量；两列变量之间的关系是线性关系。

2.Bivariate相关分析

操作过程：

“分析”→“相关”→“双变量”，出现“双变量相关”窗口，把“身高”和“体重”变量放入“变量框”；“相关系数框”中选择“Pearson”；“显著性检验框”中选择输出相关系数“双侧检验”；选中“标记显著相关”；点击“选项”，选中“统计量”中的“叉积偏差和协方差”表示输出两变量的离差平方和协方差，选中“均值和标准差”点击“继续”，回到主对话框；点击“确定”，输出结果：

表2描述性统计量

均值

标准差

身高

153.25

10.475

体重

47.655

10.0742

表3相关性

身高

体重

身高

Pearson相关性

.708**

显著性（双侧）

.000

平方与叉积的和

4279.500

2913.050

协方差

109.731

74.694

体重

Pearson相关性

.708**

显著性（双侧）

.000

平方与叉积的和

2913.050

3958.119

协方差

74.694

101.490

**.在.01水平（双侧）上显著相关。

分析：

表1描述性统计量，“身高”的取值范围是153.25±10.475；“体重”的取值范围是47.655±10.0742。

表3相关性，“身高”和“体重”的Pearson相关系数为r=0.708，0.5<0.708<0.8，且相关系数显著性水平为0.000<0.01，所以“身高”和“体重”显著正相关。

Pearson（简单）相关系数

⏹强正相关关系

⏹其特点是一变量X增加，导致另一变量Y明显增加，说明X是影响Y的主要因素。

⏹弱正相关关系

⏹其特点是一变量X增加，导致另一变量Y增加，但增加幅度不明显。

⏹强负相关关系

⏹其特点是X增加，导致Y明显减少，说明X是影响Y的主要因素。

⏹弱负相关关系

⏹其特点是变量X增加，导致Y减少，但减少幅度不明显，说明X是Y的影响因素，但不是唯一因素。

⏹非线性相关关系

⏹其特点是X、Y之间没有明显的线性关系，却存在着某种非线性关系，说明X仍是影响Y的因素。

⏹不相关

⏹其特点是X、Y不存在相关关系，说明X不是影响Y的因素。

设置相关分析的参数

（1）把参加计算相关系数的变量选到Variables“变量框“。

（2）在CorrelationCoefficents“相关系数框”中选择计算哪种相关系数，Pearson简单相关系数、Spearman等级相关系数、Kendall秩相关系数。

（3）在TestofSignificance“显著性检验框”中选择输出相关系数检验的双边（Two-Tailed）概率p值或单边（One-Tailed）概率p值。

（4）选中Flagsignificancecorrelation“标记显著相关”选项表示分析结果中除显示统计检验的概率p值外，还输出星号标记，以标明变量间的相关性是否显著；不选中则不输出星号标记。

（5）在Option“选项”按钮中的Statistics选项中，选中Cross-productdeviationsandcovariances“叉积偏差和协方差”表示输出两变量的离差平方和协方差，选中“均值和标准差”。

分析：

“”变量和“”变量相关系数为，是什么相关，相关系数显著性水平为<>0.05,0.01,故两者的相关显著。

可见，3个相关系数在0.01和0.05的显著性水平（双边检验）上都非常显著，从而推断体重和肺活量之间存在着明显的正相关关系。

3.相关分析的主要结果

（1）描述性输出

“描述性统计量”表格给出了两个变量的基本统计信息，包括均值、标准差和频率

（2）相关性输出

“相关性”表格给出的是Pearson相关系数及其检验结果：

“相关系数”表格给出的是两个非参数相关系数及其检验结果。

⏹几点说明：

⏹相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。

要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。

因此，把两个毫无关系的事物放在一起作相关分析是毫无意义的。

⏹用统计软件求得相关系数，还得检验。

Partial过程当进行相关分析的两个变量的取值都受到其他变量的影响时，就可以利用偏相关分析对其他变量进行控制，输出控制其他变量影响后的偏相关系数。

在控制其他变量的线性影响下，分析两变量间的线性相关——偏相关系数（净相关系数）。

作用：

有效地揭示变量间的真实关系，识别干扰变量并寻找隐含的相关性。

如控制年龄和工作经验的影响，估计工资收入与受教育水平之间的相关关系。

Partial过程：

当进行相关分析的两个变量的取值都受到其他变量的影响时，就可以利用偏相关分析对其他变量进行控制，输出控制其他变量影响后的相关系数。

偏相关分析（净相关分析）：

需要在剔除其他相关因素影响的条件下计算变量间的相关。

•在控制其他变量的线性影响的条件下，分析两变量间的关系，所采用的工具是偏相关系数。

Ø控制变量个数为1时，偏相关系数称一阶偏相关；

Ø当控制两个变量时，偏相关系数称二阶偏相关；

Ø当控制变量数为0时，偏相关系数称为零阶偏相关（也就是简单相关系数）。

2.偏相关分析的基本操作

例：

水稻产量、雨量、温度

1选择分析方法

本题要求控制“温度”的影响，判断水稻“产量”、“雨量”两个变量间关系的密切程度，所以采用相关分析中的偏相关过程。

2建立数据文件

设置个变量，

3用散点图初步观察两变量间有无相关趋势。

操作过程：

菜单“图形-图表构建程序”，打开图形构建器，点击“确定”，对图表进行定义；选中“散点图/点图”，再选择第一个“简单散点图”，将“简单散点图”拖到“图表预览使用实例数据”中，将变量1“雨量”拖到X轴，变量2“产量”拖到Y轴；左键双击输出窗口的散点图，出现“图表编辑器”，点击“元素”→“总计拟合线”，得到下图所示散点图：

分析:

从散点图可以看出，“雨量”变量和“产量”变量存在线性关系，可用相关分析。

但是会受到变量“温度”的影响，所以使用偏相关分析（Partial过程），控制变量“温度”。

4偏相关分析（Partial过程）

“分析”→“相关”→“偏相关”，出现“偏相关”窗口，把“雨量”和“产量”变量放入“变量”框，把“温度”放入“控制”框；“显著性检验”框中选择输出相关系数“双侧检验”；选中“显示实际显著水平”；点击“选项”，选中“统计量”中的“零阶相关系数”表示输出零阶偏相关系数，选中“均值和标准差”，点击“继续”，回到主对话框；点击“确定”，输出结果：

描述性统计量

均值

标准差

降雨量（mm）

79.00

42.430

早稻收获量（kg/公顷）

3800.00

1527.525

温度（℃）

12.00

4.123

相关性

控制变量

降雨量（mm）

早稻收获量（kg/公顷）

温度（℃）

-无-a

降雨量（mm）

相关性

1.000

.984

.965

显著性（双侧）

.000

早稻收获量（kg/公顷）

相关性

.984

1.000

.990

显著性（双侧）

.000

温度（℃）

相关性

.965

.990

1.000

显著性（双侧）

.000

温度（℃）

降雨量（mm）

相关性

1.000

.759

显著性（双侧）

.080

早稻收获量（kg/公顷）

相关性

.759

1.000

显著性（双侧）

.080

a.单元格包含零阶（Pearson）相关。

分析：

零阶偏相关分析，即不控制变量“温度”时，“产量”和“降雨量”相关系数为0.984，且0.8<0.984<1，即“产量”和“降雨量”高度正相关，相关系数显著性水平为0.000<0.01，两者相关显著，具有统计学意义；一阶偏相关分析，即控制变量“温度”时，“产量”变量和“降雨量”变量相关系数为0.759，0.5<0.759<0.8是显著正相关，相关系数显著性水平为0.080>0.05，故两者的相关不显著，不具有统计学意义。

Pearson（简单）相关系数