使用SPSS线性回归实现通径分析的方法文档格式.docx
《使用SPSS线性回归实现通径分析的方法文档格式.docx》由会员分享,可在线阅读,更多相关《使用SPSS线性回归实现通径分析的方法文档格式.docx(11页珍藏版)》请在冰点文库上搜索。
Linear”这一个程序便可获得通径系数、相关系数
以及显著性检验等信息。
现以小麦丰产3号的各
种性状与单株籽粒产量间的相关关系为例[14]
建
立线性回归方程并计算通径系数。
2通径分析的过程
2.1录入数据启动SPSS程序,将数据输入SPSS
并命名各变量,设置变量标签,如图所示。
其中,
小麦丰产3号各性状与单株籽粒产量数据
使用SPSS线性回归实现通径分析的方法*
杜家菊
1
陈志伟
2**
(1山东理工大学生命科学学院
山东淄博
2550492山东理工大学分析测试中心山东淄博255049
摘要由于通径分析可以将因变量与自变量的相互影响(相关系数分解为直接影响(通
径系数和间接影响(间接通径系数,因此在遗传学等领域受到广泛的重视。
目前在软件实现方法上,一方面缺乏必要的正态性检验,另一方面通径系数及间接相关系数计算步骤过于繁琐,限制通径分析的教学和使用。
在应用中,我们注意到通过SPSS的线性回归“Linear”程序可以一次性获得计算通径系数的全部数据,从而简化通径分析的步骤。
关键词
通径分析
SPSS线性回归相关系数
中国图书分类号:
TP274+.2
文献标识码:
A*基金项目:
山东省科学技术攻关项目(2008GG2TC01011-5和山东省优秀中青年科学家科研奖励基金项目(2007BS06021资助**通讯作者
x1
x2x3x4y11023411315.72920410614.531022411117.541321410922.551022411015.561023410316.9782331008.681024311417.0910********.7101021311013.4111023410420.312821410910.21362331147.414821411311.615
9
22
4
105
12.3
UnstandardizedCoefficientsStandardizedCoefficientsModelBStd.ErrorBetatSig.
1(Constant
单株穗数2(Constant
单株穗数
百粒重
(Constant3单株穗数
每穗结实
小穗数
-8.06429
2.39762
-30.01290
1.96965
7.33659
-46.96636
2.01314
7.83023
.67464
3.11354
.32711
8.26129
.30632
2.62942
10.19262
.26314
2.26313
.29183
.89731
.73715
.31987
.75342
.34139
.19929
-2.59007
7.32977
-3.63295
6.43009
2.79019
-4.60788
7.65034
3.45991
2.31177
.02242
.00001
.00343
.00003
.01634
.00076
.00533
.04117
2010年第45卷第2期生物学通报5
单株籽粒产量为因变量y,单株穗数、每穗结实小穗数、百粒重、株高分别为自变量x1、x2、x3、x4。
2.2对因变量y实施正态性检验选择Analyze→DescriptiveStatitics→Explore命令,将因变量y选入DependentList,用鼠标单击Plots按钮,选择Nor-malityplotswithtests(正态图及检验。
点击OK,对因变量进行正态性检验,输出结果如表1所示。
表1正态性检验输出结果
SPSS对一组数据进行正态性检验有2种方法,Kolmogorov-SmirnovTest和Shapiro-WilkTest。
Kolmogorov-SmirnovTest检验结果较精确,适用于大样本的检测,而Shapiro-WilkTest适用于小样本的检验,本题n=15属于小样本,因此对因变量y进行正态性检验后利用Shapiro-WilkTest的输出结果。
Shapiro-Wilk统计量0.987,显著水平Sig.=0.996>
0.05,所以因变量y服从正态分布,即y是正态变量可以进行回归分析。
2.3逐步回归分析选择“Linear”程序,使用系统默认的选择项,就可以完成逐步回归分析。
选择“Statistics”中的“Descriptive”,就可以同时输出简单相关系数。
具体操作步骤如下:
选择Analyze→Regression→Linear命令,将因变量y选入Dependent,自变量x1、x2、x3、x4选入In-dependent(s,指定Method为Stepwise(逐步回归法;
打开Statistics,选择Descriptive。
然后点击OK,系统开始统计分析数据。
3结果分析
3.1建立线性回归方程、获得通径系数逐步回归方式(Stepwise是指系统根据“Options”里的默认选项,从所有可供选择的自变量中逐步地选择加入或剔除某个自变量,直到建立最优的回归方程为止。
表2模型概述输出结果
aPredictors:
(Constant,单株穗数
bPredictors:
(Constant,单株穗数,百粒重
cPredictors:
(Constant,单株穗数,百粒重,每穗结实小穗数
表3回归系数输出结果*
*DependentVariable:
单株籽粒产量
表2表明随着自变量被逐步引入回归方程,回归方程的相关系数R和决定系数R2在逐渐增大,说明引入的自变量对总产量的作用在增加。
其中决定系数R2=0.920,则剩余因子e=姨=0.28284,该值较大,说明对单株籽粒产量有影响的自变量不仅有以上3个方面,还有一些影响较大的因素没有考虑到,对单株籽粒产量影响因素的全面分析有待于进一步研究。
表3给出了各自变量的偏回归系数、方程截距、标准回归系数(即通径系数、标准误差以及相对应的显著性检验结果,从而可得线性回归方程为:
y=-46.96636+2.01314x1+0.67464x2+7.83023x3
由通径系数可以看出自变量x1、x2、x3对y的直接作用分别是:
P1y=0.75342、P2y=0.19929、P3y=0.34139。
显著性检验结果表明,x1、x2、x3的偏回归系数的显著性均小于0.05,说明自变量与因变量之间存在显著性差异,有统计学意义都应留在方程中。
3.2计算间接通径系数从表4的PearsonCorrelation输出结果可得到自变量与因变量、各自变量间的相关系数。
各自变量之间的相关系数分别是r12=r21=-0.13574,r13=r31=0.50073,r23=r32=-0.14889。
自变量x1、x2、x3与因变量y之间的简单相关系数分别是,r1y=0.89731、r2y=0.04619、r3y=0.68898。
由通径分析的理论知:
r1y=P1y+r12×
P2y+r13×
P3y=0.75342+-0.13574×
0.19929+0.50073×
0.34139=0.89731(结果与表4一致。
Kolmogorov-Smirnov(aShapiro-Wilk
StatisticdfSig.StatisticdfSig.单株籽粒产量(y.09915.200(*.98715.996
ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate
1.897a.805.7901.89609
2.939b.882.8621.53696
3.959c.920.8991.31695
与y的简单通径系数间接通径系数(间接作用
相关系数(直接作用
x1x2x3合计
x10.897310.75342-
-0.027050.170940.14389x20.046190.19929-0.10227-
-0.05083-0.1530
x3
0.68898
0.34139
0.37726-0.02967
-
0.34759
自变量
6
生物学通报2010年第45卷第2期
表4
相关系数及检验输出结果
x1通过x2对y的间接通径系数为:
r12×
P2y=-0.13574×
0.19929=-0.02705,x1通过x3对y的间接
通径系数为:
r13×
P3y=0.50073×
0.34139=0.17094。
同理可以计算出x2、x3对y的间接通径系数。
简单相关系数、通径系数及间接通径系数的关系列于下表5。
表5
简单相关系数的分解
3.3通径分析的统计学意义由表5获得的信息
是:
3个自变量对单株产量y的直接影响中,单株穗数x1的直接作用最大,百粒重x3次之,每穗结实小穗数x2的直接作用最小。
通过分析各个间接通径系数发现,单株穗数通过百粒重对产量y的间接作用较大,其间接通径系数r13×
P3y=0.17094。
虽然单株穗数通过每穗结实小穗数对产量y产生一定负值的间接作用(r12×
P2y=-0.02705,但是由于P1y和
P3y的值较大,从而使单株穗数对y的影响较大,
二者的简单相关系数r1y达到了0.89731。
百粒重对
y的简单相关系数为P3y+r31×
P1y+r32×
P2y=0.68898,使
得百粒重对产量y的影响也较大。
因此,单株穗数
x1和百粒重x3对单株籽粒产量的增加具有重要作
用;
至于每穗结实小穗数x2,其直接通径系数和间接通径系数均较小,对单株产量的改变影响不大,
可不必过多考虑。
4小结
在统计分析中对数据进行处理时,需要先进
行正态性检验。
如果数据服从正态分布继续进行统计分析;
如果数据不符合正态分布需进行非参数检验,如卡方检验、对数线性回归(loglinear等。
在SPSS中,多元回归分析使用配伍格式数据文件,因变量必须服从正态分布,故在分析之前首先对y进行了正态性检验,当其显著水平大于0.05时,方可进行回归分析。
SPSS中的“Analyze→Regression→Linear”程序
使通径分析得到简化,通径系数和相关系数在Co-
efficients和Correlations这2个输出结果中便可获
得,进而根据公式计算出间接通径系数,而且SPSS输出的结果与通径分析的理论结果一致。
因此,运用SPSS进行通径分析具有普及推广的价值。
主要参考文献
张琪,丛鹏,彭励.通径分析在Excel和SPSS中的实现.农业网络信息,2007,3:
109—110.
2李春喜.生物统计学.第3版.北京:
科学出版社,2006:
266.3
任红松,吕新,曹连莆等.通径分析的SAS实现方法.计算机与农业,2003,4:
17—19.
4林德光.通径分析法在腰果播种中的应用-兼论通径分析的SAS实施.热带作物学报,2001,22(3:
34—39.
5孙尚拱.隐变量分析简介(3.数理统计与管理,2002,21(2:
54—57,47.
黄大辉,彭懿紫,黄天进等.杂交水稻主要性状的多重逐步回归和通径分析.广西农业生物科学,2004,23(2:
100—103.
7陈庭木,徐大勇,秦德荣等.偏相关与通径分析的EXCELVBA程序设计.农业网络信息,2007,3:
101—103.
8张天伦,崔艳超,徐恒玉.通径分析在EXCEL上的实现.农业网络信息,2004,8:
36—37.
9何凤华,李明辉.Excel在通径分析中的应用.农业网络信息,
2005,22(5:
331—332.
10苏金明.统计软件SPSSforWindows使用指南.北京:
电子工业出版社,2000:
430—438.
11张宜华.精通SPSS.北京:
清华大学出版社,2001:
114—115.12郝黎仁.统计软件SPSS系列.北京:
中国水利水电出版社,
2002:
269—280.
13敬艳辉,邢留伟.通径分析及其应用.统计教育,2006,2:
24—
26.
14
李春喜.生物统计学.第4版.北京:
科学出版社,2008:
231.
(E-mail:
dujiaju226@陈志伟
E-mail:
12chen@
单株籽单株每穗结实粒产量
穗数
小穗数百粒重
株高
Pearson单株籽粒产量Correlation
单株穗数每穗结实小穗数百粒重株高
Sig.(1-tailed单株籽粒产量
1.0000.89731.04619.68898-.00651.00000.43508.00225.490820.897311.00000-.13574.50073-.09391.00000.31478.02864.36960.04619-.135741.00000-.14889.12339.43508.31478.29820.33066.68898.50073-.148891.00000-.03583.00225.02864.29820.44956
-.00651-.09391.12339-.035831.00000
.49082.36960
.33066
.44956