相关分析.docx

上传人:b****1 文档编号:2806229 上传时间:2023-05-04 格式:DOCX 页数:15 大小:148.74KB
下载 相关 举报
相关分析.docx_第1页
第1页 / 共15页
相关分析.docx_第2页
第2页 / 共15页
相关分析.docx_第3页
第3页 / 共15页
相关分析.docx_第4页
第4页 / 共15页
相关分析.docx_第5页
第5页 / 共15页
相关分析.docx_第6页
第6页 / 共15页
相关分析.docx_第7页
第7页 / 共15页
相关分析.docx_第8页
第8页 / 共15页
相关分析.docx_第9页
第9页 / 共15页
相关分析.docx_第10页
第10页 / 共15页
相关分析.docx_第11页
第11页 / 共15页
相关分析.docx_第12页
第12页 / 共15页
相关分析.docx_第13页
第13页 / 共15页
相关分析.docx_第14页
第14页 / 共15页
相关分析.docx_第15页
第15页 / 共15页
亲,该文档总共15页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

相关分析.docx

《相关分析.docx》由会员分享,可在线阅读,更多相关《相关分析.docx(15页珍藏版)》请在冰点文库上搜索。

相关分析.docx

相关分析

相关、回归分析的应用范围:

⏹相关分析用于分析两变量间相互联系的密切程度及相关方向。

⏹回归适用于分析变量间的依存关系。

如两个变量间的关系是线性的,可用直线相关与回归分析;

如两个变量间的关系是非线性的,需用非线性(曲线)回归。

相关与回归分析的变量特点:

⏹相关分析两个变量都随机变动,处于同等地位。

相关系数r来描述和度量它们数量上的联系程度。

⏹回归分析两个变量的地位不同,自变量x可随机变动,也可人为取值;当x的数值确定时,应变量y按某种规律随机变动。

⏹自变量:

被干预的变量,‘独立’于样本的最初的反应模式,特点,动机等。

⏹因/依变量:

仅被测量或登记的变量,依赖于干预或实验条件,也就是依赖于样本将如何反应

相关分析的特点:

相关关系是普遍存在的,函数关系仅是相关关系的特例。

⏹1.1相关关系的类型

⏹相关关系多种多样,归纳起来大致有以下6种:

⏹强正相关关系

⏹其特点是一变量X增加,导致另一变量Y明显增加,说明X是影响Y的主要因素。

⏹弱正相关关系

⏹其特点是一变量X增加,导致另一变量Y增加,但增加幅度不明显。

⏹强负相关关系

⏹其特点是X增加,导致Y明显减少,说明X是影响Y的主要因素。

⏹弱负相关关系

⏹其特点是变量X增加,导致Y减少,但减少幅度不明显,说明X是Y的影响因素,但不是唯一因素。

⏹非线性相关关系

⏹其特点是X、Y之间没有明显的线性关系,却存在着某种非线性关系,说明X仍是影响Y的因素。

⏹不相关

⏹其特点是X、Y不存在相关关系,说明X不是影响Y的因素。

相关分析的应用

⏹相关分析

在影响某个变量的诸多变量中判断哪些是显著的,哪些是不显著的。

在得到相关分析的结果后,可用于其他分析,如回归分析和因子分析。

相关分析的表现方式

⏹相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和性质。

⏹3.1散点图

⏹将数据点画在直角坐标系,观察散点图,直观的发现变量间的相关关系及强弱程度和方向。

1.打开或建立SAV数据文件。

2.用散点图初步观察两变量间有无相关趋势。

依次单击菜单“Graphs-ChartBuilder图表,图表构建器”打开图形构建器,选择做散点图(Scatter/Dot)。

⏹相关系数

相关分析的主要目的:

研究变量之间关系的密切程度。

根据样本的资料推断总体是否相关。

变量间关系紧密程度的指标:

主要是相关系数r。

相关系数r取值[-1到+1]。

数值愈接近-1或+1时,关系愈紧密;接近于0时,说明关系不紧密。

样本的相关系数一般用r表示,总体的相关系数一般用p表示。

对于不同类型的变量,相关系数的计算公式不同。

在相关分析中,常用的相关系数:

Pearson简单相关系数:

对定距连续变量的数据进行计算。

如测度收入和储蓄,身高和体重。

Spearman等级相关系数:

用于度量定序变量间的线性相关关系。

如军队教员的军衔与职称。

Kendall秩相关系数:

用非参数检验方法来度量定序变量间的线性相关关系。

计算基于数据的秩。

利用相关系数进行变量间线性关系的分析,通常需要完成以下两个步骤:

第一、计算样本相关系数r;r的取值在-1~+1之间

◆r>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系

◆r=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关

◆|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱

第二、对样本来自的两总体是否存在显著的线性关系进行推断。

3.3.1Pearson(简单)相关系数适用于两个变量都是数值型的数据。

3.3.2Spearman等级相关系数

用来度量定序变量间的相关关系。

•设计思想与Pearson简单相关系数相同。

其数据为非定距的,故不直接采用原始数据计算,而是利用数据的秩,用两变量的秩代替代入Pearson相关系数计算公式,于是其中的和的取值范围被限制在1和n之间。

•如果两变量的正相关性较强,它们秩的变化具有同步性,于是的值较小,θ趋向于1;

•如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是的值较大,θ趋向于0;

小样本,在零假设成立时,Spearman等级相关系数服从Spearman分布;

大样本,Spearman等级相关系数的检验统计量,为Z统计量,定义为:

1.3.3Kendall秩相关系数

如果排列双方的排名是完美的(即,两个排名是相同的),系数的价值1。

如果两排列之间的分歧排名是完美的(即,一个排名是扭转其他),系数价值-1。

对于τ介于-1和1之间的排列,增加值意味着增加之间的排列的排名。

如果排名是完全独立的,该系数已值为0的平均水平。

相关系数的缺点:

一个明显的缺点:

相关系数接近于1的程度与数据组数n相关,这易给人一种假象。

当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。

特别,当n=2时,相关系数的绝对值总为1。

在样本容量n较小时,仅凭相关系数较大就判定变量x与y间有密切的线性关系是不妥当的。

计算相关系数的基本操作

相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。

•在“分析”的菜单“相关”中有三个相关分析功能:

Bivariate“双变量”过程、Partial“偏相关”过程、Distances“距离”过程

(双变量相关分析、偏相关分析、相似性测度(距离))

Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。

包括:

计算Pearson简单相关系数、T检验统计量和对应的概率P值。

Pearson简单相关系数:

对定距连续变量的数据进行计算。

如测度收入和储蓄,身高和体重。

前提条件:

要求成对数据;正态双变量;两列变量是连续变量;两列变量之间的关系是线性关系。

Spearman等级相关系数:

用于度量定序变量间的线性相关关系。

如军队教员的军衔与职称。

前提条件:

两列变量;等级顺序的测量资料;两列变量之间的关系是线性关系。

Kendall秩相关系数:

用非参数检验方法来度量定序变量间的线性相关关系。

计算基于数据的秩

例:

身高与体重

1选择分析方法

本题要求判断身高与体重两个变量间关系的密切程度,所以采用相关分析中的双变量过程。

相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。

2建立数据文件

设置个变量,

3用散点图初步观察两变量间有无相关趋势。

操作过程:

菜单“图形-图表构建程序”,打开图形构建器,点击“确定”,对图表进行定义;选中“散点图/点图”,再选择第一个“简单散点图”,将“简单散点图”拖到“图表预览使用实例数据”中,将变量1“身高”拖到X轴,变量2“体重”拖到Y轴;左键双击输出窗口的散点图,出现“图表编辑器”,点击“元素”→“总计拟合线”,得到下图所示散点图:

分析:

从散点图可以看出,“身高”变量和“体重”变量有明显的直线趋势,存在线性关系,可用相关分析。

因为是两个变量间的相关分析,所以用Bivariate过程。

 两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. 

2正态分布检验

选择“分析”→“非参数检验”→“1-样本K-S”检验(检验样本数据是否服从某种特定的分布)→将“身高”变量和“体重”变量放入“检验变量列表框”→检验分布选择“常规”→“确定”,输出“单样本Kolmogorov-Smirnov检验”表格,如下:

检验正态分布总的可分为非参数检验和图形检验法。

表1单样本Kolmogorov-Smirnov检验

身高

年龄

N

40

40

正态参数a,,b

均值

153.25

13.98

标准差

10.475

1.476

最极端差别

绝对值

.103

.168

.067

.168

-.103

-.132

Kolmogorov-SmirnovZ

.648

1.064

渐近显著性(双侧)

.795

.208

a.检验分布为正态分布。

b.根据数据计算得到。

分析:

由表“单样本Kolmogorov-Smirnov检验”,可知“身高”渐进显著性(双侧)0.795>0.05,说明“身高”样本为正态分布;“体重”渐进显著性(双侧)0.208>0.05,说明“体重”样本为正态分布。

所以本题满足Pearson简单相关系数分析的前提条件:

两个变量都是数值型的数据,且两个变量成对(直接由数据文件看出);两个变量是正态双变量(正态检验);两列变量之间的关系是线性关系(散点图)。

所以可采用Pearson简单相关系数分析。

“变量”渐进显著性(双侧)小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布;和“”变量渐进显著性(双侧)小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布。

用Pearson简单相关系数分析,前提条件:

要求成对数据;正态双变量;两列变量是连续变量;两列变量之间的关系是线性关系。

2.Bivariate相关分析

操作过程:

“分析”→“相关”→“双变量”,出现“双变量相关”窗口,把“身高”和“体重”变量放入“变量框”;“相关系数框”中选择“Pearson”;“显著性检验框”中选择输出相关系数“双侧检验”;选中“标记显著相关”;点击“选项”,选中“统计量”中的“叉积偏差和协方差”表示输出两变量的离差平方和协方差,选中“均值和标准差”点击“继续”,回到主对话框;点击“确定”,输出结果:

表2描述性统计量

均值

标准差

N

身高

153.25

10.475

40

体重

47.655

10.0742

40

表3相关性

身高

体重

身高

Pearson相关性

1

.708**

显著性(双侧)

.000

平方与叉积的和

4279.500

2913.050

协方差

109.731

74.694

N

40

40

体重

Pearson相关性

.708**

1

显著性(双侧)

.000

平方与叉积的和

2913.050

3958.119

协方差

74.694

101.490

N

40

40

**.在.01水平(双侧)上显著相关。

分析:

表1描述性统计量,“身高”的取值范围是153.25±10.475;“体重”的取值范围是47.655±10.0742。

表3相关性,“身高”和“体重”的Pearson相关系数为r=0.708,0.5<0.708<0.8,且相关系数显著性水平为0.000<0.01,所以“身高”和“体重”显著正相关。

Pearson(简单)相关系数

⏹强正相关关系

⏹其特点是一变量X增加,导致另一变量Y明显增加,说明X是影响Y的主要因素。

⏹弱正相关关系

⏹其特点是一变量X增加,导致另一变量Y增加,但增加幅度不明显。

⏹强负相关关系

⏹其特点是X增加,导致Y明显减少,说明X是影响Y的主要因素。

⏹弱负相关关系

⏹其特点是变量X增加,导致Y减少,但减少幅度不明显,说明X是Y的影响因素,但不是唯一因素。

⏹非线性相关关系

⏹其特点是X、Y之间没有明显的线性关系,却存在着某种非线性关系,说明X仍是影响Y的因素。

⏹不相关

⏹其特点是X、Y不存在相关关系,说明X不是影响Y的因素。

设置相关分析的参数

(1)把参加计算相关系数的变量选到Variables“变量框“。

(2)在CorrelationCoefficents“相关系数框”中选择计算哪种相关系数,Pearson简单相关系数、Spearman等级相关系数、Kendall秩相关系数。

(3)在TestofSignificance“显著性检验框”中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。

(4)选中Flagsignificancecorrelation“标记显著相关”选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。

(5)在Option“选项”按钮中的Statistics选项中,选中Cross-productdeviationsandcovariances“叉积偏差和协方差”表示输出两变量的离差平方和协方差,选中“均值和标准差”。

分析:

“”变量和“”变量相关系数为,是什么相关,相关系数显著性水平为<>0.05,0.01,故两者的相关显著。

可见,3个相关系数在0.01和0.05的显著性水平(双边检验)上都非常显著,从而推断体重和肺活量之间存在着明显的正相关关系。

3.相关分析的主要结果

(1)描述性输出

“描述性统计量”表格给出了两个变量的基本统计信息,包括均值、标准差和频率

(2)相关性输出

“相关性”表格给出的是Pearson相关系数及其检验结果:

“相关系数”表格给出的是两个非参数相关系数及其检验结果。

⏹几点说明:

⏹相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。

要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。

因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。

⏹用统计软件求得相关系数,还得检验。

Partial过程当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。

在控制其他变量的线性影响下,分析两变量间的线性相关——偏相关系数(净相关系数)。

作用:

有效地揭示变量间的真实关系,识别干扰变量并寻找隐含的相关性。

如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。

Partial过程:

当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。

偏相关分析(净相关分析):

需要在剔除其他相关因素影响的条件下计算变量间的相关。

•在控制其他变量的线性影响的条件下,分析两变量间的关系,所采用的工具是偏相关系数。

Ø控制变量个数为1时,偏相关系数称一阶偏相关;

Ø当控制两个变量时,偏相关系数称二阶偏相关;

Ø当控制变量数为0时,偏相关系数称为零阶偏相关(也就是简单相关系数)。

2.偏相关分析的基本操作

例:

水稻产量、雨量、温度

1选择分析方法

本题要求控制“温度”的影响,判断水稻“产量”、“雨量”两个变量间关系的密切程度,所以采用相关分析中的偏相关过程。

2建立数据文件

设置个变量,

3用散点图初步观察两变量间有无相关趋势。

操作过程:

菜单“图形-图表构建程序”,打开图形构建器,点击“确定”,对图表进行定义;选中“散点图/点图”,再选择第一个“简单散点图”,将“简单散点图”拖到“图表预览使用实例数据”中,将变量1“雨量”拖到X轴,变量2“产量”拖到Y轴;左键双击输出窗口的散点图,出现“图表编辑器”,点击“元素”→“总计拟合线”,得到下图所示散点图:

分析:

从散点图可以看出,“雨量”变量和“产量”变量存在线性关系,可用相关分析。

但是会受到变量“温度”的影响,所以使用偏相关分析(Partial过程),控制变量“温度”。

4偏相关分析(Partial过程)

“分析”→“相关”→“偏相关”,出现“偏相关”窗口,把“雨量”和“产量”变量放入“变量”框,把“温度”放入“控制”框;“显著性检验”框中选择输出相关系数“双侧检验”;选中“显示实际显著水平”;点击“选项”,选中“统计量”中的“零阶相关系数”表示输出零阶偏相关系数,选中“均值和标准差”,点击“继续”,回到主对话框;点击“确定”,输出结果:

 

描述性统计量

均值

标准差

N

降雨量(mm)

79.00

42.430

7

早稻收获量(kg/公顷)

3800.00

1527.525

7

温度(℃)

12.00

4.123

7

 

相关性

控制变量

降雨量(mm)

早稻收获量(kg/公顷)

温度(℃)

-无-a

降雨量(mm)

相关性

1.000

.984

.965

显著性(双侧)

.

.000

.000

df

0

5

5

早稻收获量(kg/公顷)

相关性

.984

1.000

.990

显著性(双侧)

.000

.

.000

df

5

0

5

温度(℃)

相关性

.965

.990

1.000

显著性(双侧)

.000

.000

.

df

5

5

0

温度(℃)

降雨量(mm)

相关性

1.000

.759

显著性(双侧)

.

.080

df

0

4

早稻收获量(kg/公顷)

相关性

.759

1.000

显著性(双侧)

.080

.

df

4

0

a.单元格包含零阶(Pearson)相关。

分析:

零阶偏相关分析,即不控制变量“温度”时,“产量”和“降雨量”相关系数为0.984,且0.8<0.984<1,即“产量”和“降雨量”高度正相关,相关系数显著性水平为0.000<0.01,两者相关显著,具有统计学意义;一阶偏相关分析,即控制变量“温度”时,“产量”变量和“降雨量”变量相关系数为0.759,0.5<0.759<0.8是显著正相关,相关系数显著性水平为0.080>0.05,故两者的相关不显著,不具有统计学意义。

Pearson(简单)相关系数

相关分析的主要结果

(1)描述性输出

“描述性统计量”表格给出了三个变量的基本统计信息,包括均值、标准差和频率。

(2)相关性输出

“相关性”表格给出了所有变量的0阶偏相关(Pearson简单相关)系数和1阶偏相关系数的计算结果果、以及它们各自的显著性检验P值。

Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,作为聚类分析和因子分析等的预分析。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 广告传媒

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2