试验设计与回归分析Word文件下载.docx
《试验设计与回归分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《试验设计与回归分析Word文件下载.docx(57页珍藏版)》请在冰点文库上搜索。
这种回归模型的研究被划入统计学的另一个重要分支──时间序列统计分析的范围,本书不作讨论。
第2节 与相关分析的概念和要点
1.两种分析方法的异同点
研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得方程等问题,需进行和回归分析。
从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;
若仅仅为了建立由自变量推算因变量的方程,宜选用分析。
从资料所具备的条件来说,作相关分析时要求两变量都是随机变量(如:
人的身长与体重、血硒与发硒);
作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量(即可以事先指定变量的取值,如:
用药的剂量)。
在统计学教科书中习惯把相关与回归分开论述,其实在应用时,当两变量都是随机变量时,常需同时给出这2种方法分析的结果;
另外,若用计算器实现统计分析,可用对相关系数的检验取代对回归系数的检验(理由见下节),胀方便地达到了化繁为简的目的。
故本书把这2个内容放在一起讲解。
2.散布图在这两种分析中的作用
功能齐全的计算器和统计软件,会蒙骗盲目运用统计方法的人,进行和回归分析时,尤其要注意!
因为统计方法只能帮助人们揭示数据之间内在的统计规律性,但它不能创造规律,也就是说,资料之间是否存在本质联系要靠专业知识来解释;
另外,在专业上有一定联系的2项指标之间的关系并非都是直线关系。
实事上,如果2项指标之间呈一条弯曲度不大的“S”型或倒“S”型曲线趋势,错误地用一条方程来描述,在统计学上往往会得到较高的显着性,即该方程是成立的,但在生物学上是解释不通的(当因变量是某种率时最易发生这种现象)。
正确的做法是:
将(x,y)的n对数值绘在直角坐标系内,得到x与y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;
如果n个点在一条不太宽的长带内随机地着,且不存在明显的曲线趋势,可考虑进行和回归分析;
如果n个点形成的散布图近似于一个圆盘,则说明x与y之间无确定的变化趋势,几乎是互相独立的,不必硬把它们捏合在一起分析。
第3节 与相关分析的计算和应用
1.分析
进行分析的2个变量之间无自变量和因变量之分,分析的目的是研究在专业上有一定联系的2个变量呈直线关系的密切程度和方向,所用的统计量称为相关系数r,按式(4.1.1)~(4.1.5)计算。
(4.1.1)
(4.1.2)
(4.1.3)
(4.1.4)
,
(4.1.5)
由式(4.1.1)定义的相关系数r满足-1≤r≤1。
当n固定时,若|r|越接近于0,表明x与y之间呈直线关系的密切程度越低;
若|r|越接近于1,表明x与y之间呈直线关系的密切程度越高。
相关系数的大小受数据的对子数和抽样的影响,当r所代表的相关系数ρ=0时,|r|可能明显大于0,为了尽可能排除抽样的影响,较客观地反映出2变量之间呈直线关系的密切程度,需进行假设检验,其假设为H0:
ρ=0;
H1:
ρ≠0,α=0.05。
按式(4.1.6)、(4.1.7)计算。
, (4.1.6)
(4.1.7)
求出统计量tr的值后,查t临界值表、下结论的方法与比较时所用的t检验相同。
统计学家已编制出相关系数的临界值表,按df=n-2查此表作检验就更简便了。
2.分析
进行分析的2个变量之间一般有自变量和因变量之分,即使在专业上无法区分时,常把容易测量的变量看作自变量,另一个较难测量的变量看作因变量。
分析的目的是建立2变量之间的方程,检验该方程是否成立,并结合专业知识说明该方程是否值得应用以及如何应用。
关于模型,有下列统计假定∶
①对于给定的x,y是1个具有特定的随机变量,并且,与各x值对应的y服从具有等方差的正态;
②独立性假定,即各y值在统计学上彼此互相独立(有时此假定与实际情况有矛盾,需根据具体情形采取对策);
③直线假定,若用μy|x表示给定x时,y的,则此假定的含义是:
y的(μy|x)是x的直线函数。
这等价于说,将(x1,μy|x1)、(x2,μy|x2)、…、(xk,μy|xk)这些点连接起来,它们应在1条直线上。
设方程为y=α+βx+ε,ε为随机,样本方程为y^=a+bx,a、b分别是α、β的估计值,根据最小平方法(或叫最小二乘法)原理,可导出计算a,b的公式,见式(4.1.8)、(4.1.9)。
, (4.1.8)
(4.1.9)
式(4.1.8)中的lxx、lxy由式(4.1.2)、(4.1.4)定义;
式(4.1.9)中x、y由式(4.1.5)定义。
如果根据专业知识需求过定点(x0,y0)的方程,则按式(4.1.10),(4.1.11)计算。
(4.1.10)
(4.1.11)
如果(x0,y0)=(0,0)点,则按式(4.1.12)计算。
(4.1.12)
与需要对相关系数进行检验的理由相同,对斜率和截距也需作检验。
对β(斜率)作检验的假设和方法如下。
H0:
β=0;
H1:
β≠0;
α=0.05。
(4.1.13)
(4.1.14)
(4.1.15)
[说明] 值得注意的是:
同一批资料,按式(4.1.6)与按式(4.1.13)算得的结果和查表的结果完全一致,即tr=tb,df=n-2。
显然,计算tr要比tb容易得多,在实用时,可用前者取代后者。
实现这2种检验的更简便的方法则是直接查“相关系数临界值表”。
与对斜率检验等价的还有一种常用的方法∶即对回归方程是否显著作(见后面SAS软件REG过程的输出结果)。
其基本思想是:
计算出y的总离均差平和SST、由回归所能解释的离均差平和SSR,它们的差值就是回归所无法解释的量,称为,记为SSE,然后,用回归的均方除以的均方,构造出F统计量,进而根据F推断出所求的回归方程是否显着。
关于SST、SSR、SSE的计算参见本章第4节,此处仅介绍SSR,以便引入1个与相关系数有关的统计量──决定系数
。
SSR=r2SST,即r2=SSR/SST,这说明决定系数r2就是回归的离均差平和占y的总离均差平和的百分比,它即建立了相关与回归之间的联系,又通过具体的数量大小反映了回归的贡献大小,这是回归分析中1个十分有用的统计量。
对α(截距)作检验的假设和方法如下。
H0:
α=0;
H1:
α≠0;
α(显着性水平)=0.05。
ta=|a-0|/Sa =|a|/Sa,df=n-2 (4.1.16)
(4.1.17)
[说明] 上述各式中Sy.x称为剩余,是排除了x的影响后,单独y方面的变异大小,常用它作为预报精确度的标志。
因为它的单位与y一致,最容易在实际中进行比较和检验,所以,一个回归能否对仅实际问题有所帮助,只要比较Sy.x与允许的偏差就行。
故它是检验一个回归是否有效的极其重要的标志。
3.与回归分析中区间估计问题──利用回归方程进行预报与控制
ρ、α、β的100(1-α)%按式(4.1.18)~(4.1.20)计算。
r-tα(n-2)Sr≤ρ≤r+tα(n-2)Sr (4.1.18)
a-tα(n-2)Sa≤α≤a+tα(n-2)Sa (4.1.19)
b-tα(n-2)Sb≤β≤b+tα(n-2)Sb (4.1.20)
若记μy|x=x0为给定x=x0条件下y的,则它的100(1-α)%按式
(4.1.21)、(4.1.22)计算。
(4.1.21)
(4.1.22)
在给定x=x0条件下,y的个体值的近似100(1-α)%按式(4.1.23)、(4.1.24)计算,胀仅了对因变量y进行预报的问题。
(4.1.23)
(4.1.24)
在实际应用时,有时也会遇到与上述情况相反的情形,即给定y=y0,问对应的x0是多少?
胀是所谓的控制(或校准)问题。
在给定y=y0条件下,x0的估计值需按下述2种情形来考虑:
①如果x,y都是随机变量,则预测与控制这2个问题的地位是平等的。
可以反过来把y作为自变量而把x作为因变量,这时当然应求从x推算y的方程x^=c+dy,它与从x推算y的方程并不重合,将y=y0代入此方程, 求得x0的估计值,并用式(4.1.23)、(4.1.24)进行区间估计,注意把公式中的x,y的地位互换;
②一般控制问题多用在自变量非随机的场合,因此,不能象①中那样反转过去做。
事实上,在这种场合下,控制问题的性质与预测问题很不一样:
在前者,x虽然未知,但是是1个非随机的变量,取确定的数;
在后者,预测对象y却是随机变量。
处理的方法是:
作为x的点估计,仍沿用已求得的方程y^=a+bx解出x^0=(y0-a)/b,但应重新推导出与上面2式类似的公式,以便直接运用。
于是,x0的近似100(1-α)%按式(4.1.25)、(4.1.26)计算。
胀仅了对自变量x进行控制(或校准)的问题。
(4.1.25)
(4.1.26)
在上2式中,y0是根据n0次观测得到的y的,当y0为理论值时,n0=∞;
当y0为1次观测结果时,n0=1。
4.与回归分析的应用
[例4.1.1A] 给10只中年大鼠注射内毒素(30mg/kg)后,测得每只大鼠的红细胞含量x(×
104/mm3)与血红蛋白含量y(g/L)分别如下,试对x,y两变量进行线性相关和回归分析(设x为自变量,y为因变量)。
鼠号 1 2 3 4 5 6 7 8 9 10
x 654 786 667 605 761 642 652 706 602 539
y 130 168 143 130 158 129 151 153 149 109
[分析与解答]
(1)先介绍用统计公式逐一计算的方法
①绘出10对数据的散布图(此处从略,参见后面SAS输出结果部分),发现各散点呈一直线变化趋势,表明值得进行和回归分析;
②按式(4.1.1)~(4.1.5)和式(4.1.8)、(4.1.9)计算,得
lxx=49676.4, lyy=2730
lxy=9886
r=0.848915,x-=661.4,y-=142.0,b=0.199008,a=10.376109
于是,求得相关系数r=0.848915,y倚x变化的方程为:
y^=10.376109+0.199008x
③按式(4.1.6)、(4.1.7)对相关系数(同时也等价于对回归方程的斜率)进行显着性检验
ρ=0;
ρ≠0;
α=0.05。
Sr=0.186863
tr=4.543,df=8
按df=8查t临界值表,得t0.01(8)=3.355,因tr=4.543>
t0.01(8)=3.355,即P<
0.01,在α=0.01水准上拒绝H0,接受H1。
用查表法实现上述检验的方法是:
查相关系数临界值表,找到df=8所对应的那一行,看r=0.848915在某2个相邻的数之间,与此二值对应的表头上的小数就是P值所在的范围(注意有单、双侧检验之分)。
因r0.002(8)=0.847<
r=0.848915<
r0.001(8)=0.872,所以0.001<
P<
0.002(双侧检验),0.0005<
0.001(单侧检验)。
(注∶若事先就有充分的理由认为:
x与y之间只可能是正(或负)相关关系,则宜选用单侧检验;
若理由并不十分充足,则宜选用双侧检验)。
④同理,可用式(4.1.16)、(4.1.17)对截距作显着性检验,若差别不显着,可认为所求的方程通过坐标原点(0,0);
⑤如果需要,还可按式(4.1.18)~(4.1.26)进行区间估计(从略)。
[专业结论] 因r=0.848915>
0,故可以认为x与y之间呈非常显着的正相关关系,也即所求得的方程成立。
[说明] 适于进行和回归分析的资料类型为;
当运用求得的方程去对因变量的取值进行预报时,自变量的取值最好不要超出原试验数据的变化范围;
检查方程的计算是否有错的简便方法:
所求的直线应通过(x,y)这一点,即将x代入方程,应得y^≈y。
(2)最后介绍用SAS软件实现统计计算和检验的方法
[SAS程序]──[D4P1.PRG]
DATAabc;
PROCPLOT;
INPUTxy;
PLOTy*x='
s'
;
CARDS;
RUN;
654 130 PROCCORR;
786 168 VARxy;
667 143 RUN;
605 130 PROCREG;
761 158 MODELy=x/RCLICLM;
642 129 PLOT(U95.L95.P.)*x='
-'
652 151 y*x='
o'
/OVERLAY;
706 153 OUTPUTOUT=aaaP=yhatR=yresid;
602 149 RUN;
539 109 PROCPLOTDATA=aaa;
;
PLOTyresid*yhat='
R'
OPTIONSLS=64PS=20;
RUN;
(程序的第1部分) (程序的第2部分)
[程序修改指导] OPTIONS语句规定输出时每行最多64个字符,每页最多20行,目的是使输出的图形小一些;
第1次调用PLOT过程是为了绘原始数据的散布图,以便了解是否适合作和回归分析,每1对数据用1个“s”表示出来;
第2个过程步是调用CORR过程作相关分析;
第3个过程步是调用REG过程进行分析,在MODEL语句中,因变量放在等号左边,右边各选择项的含义是:
R(作残差分析,同时给出因变量的预测值)、CLI(给出各自变量所对应的因变量的95%的下限与上限值)、CLM(给出各自变量所对应的因变量预测值()的95%的下限与上限值),紧接此语句之后的PLOT语句第1部分要求以x为横轴,纵轴分别为U95(上限值)、L95(下限值)、P(因变量的预测值),均用“-”表示,将绘出回归直线的置信带;
同时用“o”表示原始数据点,OVERLAY要求将自变量相同因变量取几组不同值的图绘在同1个坐标系内;
OUTPUT语句产生1个输出数据集AAA,内含(x,y)原始数据和y的预测值yhat(即y^)、残差yresid=y-y^;
最后调用PLOT过程绘残差图,把残差放在纵轴上、y的预测值放在横轴上。
[输出结果及其解释] PlotofY*X. Symbolusedis'
.
200+
|
Y|
| s
| s
150+ s s s
| s
| s ss
| s
100+
---+--------+--------+--------+--------+--------+--------+--
500 550 600 650 700 750 800
X
这是原始数据的散布图,不存在某种明显的曲线趋势,各点在1条不太宽的带内随机地着,而且,2变量都是随机变量,故可以继续作和回归分析。
CORRELATIONANALYSIS
2'
VAR'
Variables:
X Y
SimpleStatistics
Variable N Mean StdDev Sum Minimum Maximum
X 10 661.4 74.2940 6614.0 539.0 786.0
Y 10 142.0 17.4165 1420.0 109.0 168.0
PearsonCorrelationCoefficients/Prob>
|R|underHo:
Rho=0/N=10
X Y
X 1.00000 0.84892
0.0 0.0019
Y 0.84892 1.00000
0.0019 0.0
这是相关分析过程给出的关于、等的简单统计量,皮尔逊(Pearson)相关系数及其显着性检验的P值。
因r=0.84892,P=0.0019,说明2变量之间呈非常显着的正相关关系。
Model:
MODEL1 DependentVariable:
Y AnalysisofVariance
Sumof Mean
Source DF Squares Square FValue Prob>
F
Model 1 1967.39289 1967.39289 20.639 0.0019
Error 8 762.60711 95.32589
CTotal 9 2730.00000
RootMSE 9.76350 R-square 0.7207
DepMean 142.00000 AdjR-sq 0.6857
C.V. 6.87570
这是回归过程给出的关于所拟合的方程是否显着的检验结果,这里使用的检验方法是,它与前面讲的关于ρ和β的检验是等价的。
对应的F=20.639,P=0.0019,说明方程是非常显着的,此方程的精确度可用剩余来度量,即Sy.x=9.7635。
ParameterEstimates
Parameter Standard TforH0:
Variable DF Estimate Error Parameter=0 Prob>
|T|
INTERCEP 1 10.376122 29.13711664 0.356 0.7310
X 1 0.199008 0.04380567 4.543 0.0019
这是关于截距和斜率的参数估计及其显着性检验结果,α^=a=10.376122,α与0的差别不显着(P=0.7310),应不要截距重新拟合方程;
β^=b=0.199008,β与0的差别非常显着(P=0.0019)。
MODEL2
NOTE:
Nointerceptinmodel.R-squareisredefined.
DependentVariable:
Y AnalysisofVariance
Sumof Mean
Source DF Squares Square FValue Prob>
Model 1203595.30396203595.30396 2365.260 0.0001
Error 9 774.69604 86.07734
UTotal 10204370.00000
RootMSE 9.27779 R-square 0.9962
DepMean 142.00000 AdjR-sq 0.9958
C.V. 6.53365
这是关于不含截距项的方程是否显着的检验结果,F=2365.26,P<
0.0001