相关分析.docx
《相关分析.docx》由会员分享,可在线阅读,更多相关《相关分析.docx(15页珍藏版)》请在冰点文库上搜索。
相关分析
相关、回归分析的应用范围:
⏹相关分析用于分析两变量间相互联系的密切程度及相关方向。
⏹回归适用于分析变量间的依存关系。
如两个变量间的关系是线性的,可用直线相关与回归分析;
如两个变量间的关系是非线性的,需用非线性(曲线)回归。
相关与回归分析的变量特点:
⏹相关分析两个变量都随机变动,处于同等地位。
相关系数r来描述和度量它们数量上的联系程度。
⏹回归分析两个变量的地位不同,自变量x可随机变动,也可人为取值;当x的数值确定时,应变量y按某种规律随机变动。
⏹自变量:
被干预的变量,‘独立’于样本的最初的反应模式,特点,动机等。
⏹因/依变量:
仅被测量或登记的变量,依赖于干预或实验条件,也就是依赖于样本将如何反应
相关分析的特点:
相关关系是普遍存在的,函数关系仅是相关关系的特例。
⏹1.1相关关系的类型
⏹相关关系多种多样,归纳起来大致有以下6种:
⏹强正相关关系
⏹其特点是一变量X增加,导致另一变量Y明显增加,说明X是影响Y的主要因素。
⏹弱正相关关系
⏹其特点是一变量X增加,导致另一变量Y增加,但增加幅度不明显。
⏹强负相关关系
⏹其特点是X增加,导致Y明显减少,说明X是影响Y的主要因素。
⏹弱负相关关系
⏹其特点是变量X增加,导致Y减少,但减少幅度不明显,说明X是Y的影响因素,但不是唯一因素。
⏹非线性相关关系
⏹其特点是X、Y之间没有明显的线性关系,却存在着某种非线性关系,说明X仍是影响Y的因素。
⏹不相关
⏹其特点是X、Y不存在相关关系,说明X不是影响Y的因素。
相关分析的应用
⏹相关分析
在影响某个变量的诸多变量中判断哪些是显著的,哪些是不显著的。
在得到相关分析的结果后,可用于其他分析,如回归分析和因子分析。
相关分析的表现方式
⏹相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和性质。
⏹3.1散点图
⏹将数据点画在直角坐标系,观察散点图,直观的发现变量间的相关关系及强弱程度和方向。
1.打开或建立SAV数据文件。
2.用散点图初步观察两变量间有无相关趋势。
依次单击菜单“Graphs-ChartBuilder图表,图表构建器”打开图形构建器,选择做散点图(Scatter/Dot)。
⏹相关系数
相关分析的主要目的:
研究变量之间关系的密切程度。
根据样本的资料推断总体是否相关。
变量间关系紧密程度的指标:
主要是相关系数r。
相关系数r取值[-1到+1]。
数值愈接近-1或+1时,关系愈紧密;接近于0时,说明关系不紧密。
样本的相关系数一般用r表示,总体的相关系数一般用p表示。
对于不同类型的变量,相关系数的计算公式不同。
在相关分析中,常用的相关系数:
Pearson简单相关系数:
对定距连续变量的数据进行计算。
如测度收入和储蓄,身高和体重。
Spearman等级相关系数:
用于度量定序变量间的线性相关关系。
如军队教员的军衔与职称。
Kendall秩相关系数:
用非参数检验方法来度量定序变量间的线性相关关系。
计算基于数据的秩。
利用相关系数进行变量间线性关系的分析,通常需要完成以下两个步骤:
第一、计算样本相关系数r;r的取值在-1~+1之间
◆r>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系
◆r=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关
◆|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱
第二、对样本来自的两总体是否存在显著的线性关系进行推断。
3.3.1Pearson(简单)相关系数适用于两个变量都是数值型的数据。
3.3.2Spearman等级相关系数
用来度量定序变量间的相关关系。
•设计思想与Pearson简单相关系数相同。
其数据为非定距的,故不直接采用原始数据计算,而是利用数据的秩,用两变量的秩代替代入Pearson相关系数计算公式,于是其中的和的取值范围被限制在1和n之间。
•如果两变量的正相关性较强,它们秩的变化具有同步性,于是的值较小,θ趋向于1;
•如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是的值较大,θ趋向于0;
小样本,在零假设成立时,Spearman等级相关系数服从Spearman分布;
大样本,Spearman等级相关系数的检验统计量,为Z统计量,定义为:
1.3.3Kendall秩相关系数
如果排列双方的排名是完美的(即,两个排名是相同的),系数的价值1。
如果两排列之间的分歧排名是完美的(即,一个排名是扭转其他),系数价值-1。
对于τ介于-1和1之间的排列,增加值意味着增加之间的排列的排名。
如果排名是完全独立的,该系数已值为0的平均水平。
相关系数的缺点:
一个明显的缺点:
相关系数接近于1的程度与数据组数n相关,这易给人一种假象。
当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。
特别,当n=2时,相关系数的绝对值总为1。
在样本容量n较小时,仅凭相关系数较大就判定变量x与y间有密切的线性关系是不妥当的。
计算相关系数的基本操作
相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。
•在“分析”的菜单“相关”中有三个相关分析功能:
Bivariate“双变量”过程、Partial“偏相关”过程、Distances“距离”过程
(双变量相关分析、偏相关分析、相似性测度(距离))
Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。
包括:
计算Pearson简单相关系数、T检验统计量和对应的概率P值。
Pearson简单相关系数:
对定距连续变量的数据进行计算。
如测度收入和储蓄,身高和体重。
前提条件:
要求成对数据;正态双变量;两列变量是连续变量;两列变量之间的关系是线性关系。
Spearman等级相关系数:
用于度量定序变量间的线性相关关系。
如军队教员的军衔与职称。
前提条件:
两列变量;等级顺序的测量资料;两列变量之间的关系是线性关系。
Kendall秩相关系数:
用非参数检验方法来度量定序变量间的线性相关关系。
计算基于数据的秩
例:
身高与体重
1选择分析方法
本题要求判断身高与体重两个变量间关系的密切程度,所以采用相关分析中的双变量过程。
相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。
2建立数据文件
设置个变量,
3用散点图初步观察两变量间有无相关趋势。
操作过程:
菜单“图形-图表构建程序”,打开图形构建器,点击“确定”,对图表进行定义;选中“散点图/点图”,再选择第一个“简单散点图”,将“简单散点图”拖到“图表预览使用实例数据”中,将变量1“身高”拖到X轴,变量2“体重”拖到Y轴;左键双击输出窗口的散点图,出现“图表编辑器”,点击“元素”→“总计拟合线”,得到下图所示散点图:
分析:
从散点图可以看出,“身高”变量和“体重”变量有明显的直线趋势,存在线性关系,可用相关分析。
因为是两个变量间的相关分析,所以用Bivariate过程。
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.
2正态分布检验
选择“分析”→“非参数检验”→“1-样本K-S”检验(检验样本数据是否服从某种特定的分布)→将“身高”变量和“体重”变量放入“检验变量列表框”→检验分布选择“常规”→“确定”,输出“单样本Kolmogorov-Smirnov检验”表格,如下:
检验正态分布总的可分为非参数检验和图形检验法。
表1单样本Kolmogorov-Smirnov检验
身高
年龄
N
40
40
正态参数a,,b
均值
153.25
13.98
标准差
10.475
1.476
最极端差别
绝对值
.103
.168
正
.067
.168
负
-.103
-.132
Kolmogorov-SmirnovZ
.648
1.064
渐近显著性(双侧)
.795
.208
a.检验分布为正态分布。
b.根据数据计算得到。
分析:
由表“单样本Kolmogorov-Smirnov检验”,可知“身高”渐进显著性(双侧)0.795>0.05,说明“身高”样本为正态分布;“体重”渐进显著性(双侧)0.208>0.05,说明“体重”样本为正态分布。
所以本题满足Pearson简单相关系数分析的前提条件:
两个变量都是数值型的数据,且两个变量成对(直接由数据文件看出);两个变量是正态双变量(正态检验);两列变量之间的关系是线性关系(散点图)。
所以可采用Pearson简单相关系数分析。
“变量”渐进显著性(双侧)小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布;和“”变量渐进显著性(双侧)小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布。
用Pearson简单相关系数分析,前提条件:
要求成对数据;正态双变量;两列变量是连续变量;两列变量之间的关系是线性关系。
2.Bivariate相关分析
操作过程:
“分析”→“相关”→“双变量”,出现“双变量相关”窗口,把“身高”和“体重”变量放入“变量框”;“相关系数框”中选择“Pearson”;“显著性检验框”中选择输出相关系数“双侧检验”;选中“标记显著相关”;点击“选项”,选中“统计量”中的“叉积偏差和协方差”表示输出两变量的离差平方和协方差,选中“均值和标准差”点击“继续”,回到主对话框;点击“确定”,输出结果:
表2描述性统计量
均值
标准差
N
身高
153.25
10.475
40
体重
47.655
10.0742
40
表3相关性
身高
体重
身高
Pearson相关性
1
.708**
显著性(双侧)
.000
平方与叉积的和
4279.500
2913.050
协方差
109.731
74.694
N
40
40
体重
Pearson相关性
.708**
1
显著性(双侧)
.000
平方与叉积的和
2913.050
3958.119
协方差
74.694
101.490
N
40
40
**.在.01水平(双侧)上显著相关。
分析:
表1描述性统计量,“身高”的取值范围是153.25±10.475;“体重”的取值范围是47.655±10.0742。
表3相关性,“身高”和“体重”的Pearson相关系数为r=0.708,0.5<0.708<0.8,且相关系数显著性水平为0.000<0.01,所以“身高”和“体重”显著正相关。
Pearson(简单)相关系数
⏹强正相关关系
⏹其特点是一变量X增加,导致另一变量Y明显增加,说明X是影响Y的主要因素。
⏹弱正相关关系
⏹其特点是一变量X增加,导致另一变量Y增加,但增加幅度不明显。
⏹强负相关关系
⏹其特点是X增加,导致Y明显减少,说明X是影响Y的主要因素。
⏹弱负相关关系
⏹其特点是变量X增加,导致Y减少,但减少幅度不明显,说明X是Y的影响因素,但不是唯一因素。
⏹非线性相关关系
⏹其特点是X、Y之间没有明显的线性关系,却存在着某种非线性关系,说明X仍是影响Y的因素。
⏹不相关
⏹其特点是X、Y不存在相关关系,说明X不是影响Y的因素。
设置相关分析的参数
(1)把参加计算相关系数的变量选到Variables“变量框“。
(2)在CorrelationCoefficents“相关系数框”中选择计算哪种相关系数,Pearson简单相关系数、Spearman等级相关系数、Kendall秩相关系数。
(3)在TestofSignificance“显著性检验框”中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。
(4)选中Flagsignificancecorrelation“标记显著相关”选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。
(5)在Option“选项”按钮中的Statistics选项中,选中Cross-productdeviationsandcovariances“叉积偏差和协方差”表示输出两变量的离差平方和协方差,选中“均值和标准差”。
分析:
“”变量和“”变量相关系数为,是什么相关,相关系数显著性水平为<>0.05,0.01,故两者的相关显著。
可见,3个相关系数在0.01和0.05的显著性水平(双边检验)上都非常显著,从而推断体重和肺活量之间存在着明显的正相关关系。
3.相关分析的主要结果
(1)描述性输出
“描述性统计量”表格给出了两个变量的基本统计信息,包括均值、标准差和频率
(2)相关性输出
“相关性”表格给出的是Pearson相关系数及其检验结果:
“相关系数”表格给出的是两个非参数相关系数及其检验结果。
⏹几点说明:
⏹相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。
要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。
因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。
⏹用统计软件求得相关系数,还得检验。
Partial过程当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。
在控制其他变量的线性影响下,分析两变量间的线性相关——偏相关系数(净相关系数)。
作用:
有效地揭示变量间的真实关系,识别干扰变量并寻找隐含的相关性。
如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。
Partial过程:
当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。
偏相关分析(净相关分析):
需要在剔除其他相关因素影响的条件下计算变量间的相关。
•在控制其他变量的线性影响的条件下,分析两变量间的关系,所采用的工具是偏相关系数。
Ø控制变量个数为1时,偏相关系数称一阶偏相关;
Ø当控制两个变量时,偏相关系数称二阶偏相关;
Ø当控制变量数为0时,偏相关系数称为零阶偏相关(也就是简单相关系数)。
2.偏相关分析的基本操作
例:
水稻产量、雨量、温度
1选择分析方法
本题要求控制“温度”的影响,判断水稻“产量”、“雨量”两个变量间关系的密切程度,所以采用相关分析中的偏相关过程。
2建立数据文件
设置个变量,
3用散点图初步观察两变量间有无相关趋势。
操作过程:
菜单“图形-图表构建程序”,打开图形构建器,点击“确定”,对图表进行定义;选中“散点图/点图”,再选择第一个“简单散点图”,将“简单散点图”拖到“图表预览使用实例数据”中,将变量1“雨量”拖到X轴,变量2“产量”拖到Y轴;左键双击输出窗口的散点图,出现“图表编辑器”,点击“元素”→“总计拟合线”,得到下图所示散点图:
分析:
从散点图可以看出,“雨量”变量和“产量”变量存在线性关系,可用相关分析。
但是会受到变量“温度”的影响,所以使用偏相关分析(Partial过程),控制变量“温度”。
4偏相关分析(Partial过程)
“分析”→“相关”→“偏相关”,出现“偏相关”窗口,把“雨量”和“产量”变量放入“变量”框,把“温度”放入“控制”框;“显著性检验”框中选择输出相关系数“双侧检验”;选中“显示实际显著水平”;点击“选项”,选中“统计量”中的“零阶相关系数”表示输出零阶偏相关系数,选中“均值和标准差”,点击“继续”,回到主对话框;点击“确定”,输出结果:
描述性统计量
均值
标准差
N
降雨量(mm)
79.00
42.430
7
早稻收获量(kg/公顷)
3800.00
1527.525
7
温度(℃)
12.00
4.123
7
相关性
控制变量
降雨量(mm)
早稻收获量(kg/公顷)
温度(℃)
-无-a
降雨量(mm)
相关性
1.000
.984
.965
显著性(双侧)
.
.000
.000
df
0
5
5
早稻收获量(kg/公顷)
相关性
.984
1.000
.990
显著性(双侧)
.000
.
.000
df
5
0
5
温度(℃)
相关性
.965
.990
1.000
显著性(双侧)
.000
.000
.
df
5
5
0
温度(℃)
降雨量(mm)
相关性
1.000
.759
显著性(双侧)
.
.080
df
0
4
早稻收获量(kg/公顷)
相关性
.759
1.000
显著性(双侧)
.080
.
df
4
0
a.单元格包含零阶(Pearson)相关。
分析:
零阶偏相关分析,即不控制变量“温度”时,“产量”和“降雨量”相关系数为0.984,且0.8<0.984<1,即“产量”和“降雨量”高度正相关,相关系数显著性水平为0.000<0.01,两者相关显著,具有统计学意义;一阶偏相关分析,即控制变量“温度”时,“产量”变量和“降雨量”变量相关系数为0.759,0.5<0.759<0.8是显著正相关,相关系数显著性水平为0.080>0.05,故两者的相关不显著,不具有统计学意义。
Pearson(简单)相关系数
相关分析的主要结果
(1)描述性输出
“描述性统计量”表格给出了三个变量的基本统计信息,包括均值、标准差和频率。
(2)相关性输出
“相关性”表格给出了所有变量的0阶偏相关(Pearson简单相关)系数和1阶偏相关系数的计算结果果、以及它们各自的显著性检验P值。
Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,作为聚类分析和因子分析等的预分析。