试验设计与回归分析Word文件下载.docx

资源描述

试验设计与回归分析Word文件下载.docx

《试验设计与回归分析Word文件下载.docx》由会员分享，可在线阅读，更多相关《试验设计与回归分析Word文件下载.docx（57页珍藏版）》请在冰点文库上搜索。

试验设计与回归分析Word文件下载.docx

这种回归模型的研究被划入统计学的另一个重要分支──时间序列统计分析的范围，本书不作讨论。

　　第２节　与相关分析的概念和要点

１．两种分析方法的异同点

　　研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得方程等问题，需进行和回归分析。

从研究的目的来说，若仅仅为了了解两变量之间呈直线关系的密切程度和方向，宜选用线性相关分析；

若仅仅为了建立由自变量推算因变量的方程，宜选用分析。

从资料所具备的条件来说，作相关分析时要求两变量都是随机变量（如：

人的身长与体重、血硒与发硒）；

作回归分析时要求因变量是随机变量，自变量可以是随机的，也可以是一般变量（即可以事先指定变量的取值，如：

用药的剂量）。

　　在统计学教科书中习惯把相关与回归分开论述，其实在应用时，当两变量都是随机变量时，常需同时给出这２种方法分析的结果；

另外，若用计算器实现统计分析，可用对相关系数的检验取代对回归系数的检验（理由见下节），胀方便地达到了化繁为简的目的。

故本书把这２个内容放在一起讲解。

２．散布图在这两种分析中的作用

　　功能齐全的计算器和统计软件，会蒙骗盲目运用统计方法的人，进行和回归分析时，尤其要注意！

因为统计方法只能帮助人们揭示数据之间内在的统计规律性，但它不能创造规律，也就是说，资料之间是否存在本质联系要靠专业知识来解释；

另外，在专业上有一定联系的２项指标之间的关系并非都是直线关系。

实事上，如果２项指标之间呈一条弯曲度不大的“Ｓ”型或倒“Ｓ”型曲线趋势，错误地用一条方程来描述，在统计学上往往会得到较高的显着性，即该方程是成立的，但在生物学上是解释不通的（当因变量是某种率时最易发生这种现象）。

正确的做法是：

将（ｘ，ｙ）的ｎ对数值绘在直角坐标系内，得到ｘ与ｙ变化趋势的散布图，如果ｎ个点形成的散布图呈一条明显的曲线趋势时，宜拟合一条曲线回归方程；

如果ｎ个点在一条不太宽的长带内随机地着，且不存在明显的曲线趋势，可考虑进行和回归分析；

如果ｎ个点形成的散布图近似于一个圆盘，则说明ｘ与ｙ之间无确定的变化趋势，几乎是互相独立的，不必硬把它们捏合在一起分析。

　　第３节　与相关分析的计算和应用

１．分析

　　进行分析的２个变量之间无自变量和因变量之分，分析的目的是研究在专业上有一定联系的２个变量呈直线关系的密切程度和方向，所用的统计量称为相关系数ｒ，按式（4.1.1）～（4.1.5）计算。

　　　　　　　　　　　　　　　　　　　　　　（4.1.1）

　　　　　　　　　　　　　　（4.1.2）　　

　　　　　　　　　　　　　　（4.1.3）　　

　　　　　　　　（4.1.4）

，　　　

　　　　　　　　　　　　　　　　（4.1.5）

由式（4.1.1）定义的相关系数ｒ满足-１≤ｒ≤１。

　　当ｎ固定时，若｜ｒ｜越接近于０，表明ｘ与ｙ之间呈直线关系的密切程度越低；

若｜ｒ｜越接近于１，表明ｘ与ｙ之间呈直线关系的密切程度越高。

　　相关系数的大小受数据的对子数和抽样的影响，当ｒ所代表的相关系数ρ=０时，｜ｒ｜可能明显大于０，为了尽可能排除抽样的影响，较客观地反映出２变量之间呈直线关系的密切程度，需进行假设检验，其假设为H0：

ρ=０；

H1：

ρ≠０，α=0.05。

按式（4.1.6）、（4.1.7）计算。

　，　（4.1.6）　　　

　　　　（4.1.7）

　　求出统计量tr的值后，查t临界值表、下结论的方法与比较时所用的t检验相同。

统计学家已编制出相关系数的临界值表，按df=n-2查此表作检验就更简便了。

２．分析

　　进行分析的２个变量之间一般有自变量和因变量之分，即使在专业上无法区分时，常把容易测量的变量看作自变量，另一个较难测量的变量看作因变量。

分析的目的是建立２变量之间的方程，检验该方程是否成立，并结合专业知识说明该方程是否值得应用以及如何应用。

关于模型，有下列统计假定∶

　　①对于给定的x，y是１个具有特定的随机变量，并且，与各x值对应的y服从具有等方差的正态;

　　②独立性假定，即各y值在统计学上彼此互相独立（有时此假定与实际情况有矛盾，需根据具体情形采取对策）;

　　③直线假定，若用μy｜x表示给定x时，y的，则此假定的含义是:

y的（μy｜x）是x的直线函数。

这等价于说，将（x1，μy｜x1）、（x2，μy｜x2）、…、（xk，μy｜xk）这些点连接起来，它们应在１条直线上。

　　设方程为y=α+βx+ε，ε为随机，样本方程为y^=a+bx，a、b分别是α、β的估计值，根据最小平方法（或叫最小二乘法）原理，可导出计算a，b的公式，见式（4.1.8）、（4.1.9）。

，　　　　（4.1.8）　　　　　　　　　

　　　　　　　　（4.1.9）

式（4.1.8）中的lxx、lxy由式（4.1.2）、（4.1.4）定义；

式（4.1.9）中x、y由式（4.1.5）定义。

　　如果根据专业知识需求过定点（x0，y0）的方程，则按式（4.1.10），（4.1.11）计算。

　　　　　　　（4.1.10）　　

　　　　　　　　　　　　　　　　　（4.1.11）

　　如果（x0，y0）=（0，0）点，则按式（4.1.12）计算。

　　　　　　　　　　　　　　　　　（4.1.12）

　　与需要对相关系数进行检验的理由相同，对斜率和截距也需作检验。

　　对β（斜率）作检验的假设和方法如下。

　　H0：

β=0；

H1:

β≠0；

α=0.05。

　　　　　　　　　　　　　　　　（4.1.13）　　

　　　　　　　　　　　　（4.1.14）　　

　　　　　　　　　　（4.1.15）

　　[说明]　值得注意的是：

同一批资料，按式（4.1.6）与按式（4.1.13）算得的结果和查表的结果完全一致，即tr=tb，df=n-2。

显然，计算tr要比tb容易得多，在实用时，可用前者取代后者。

实现这２种检验的更简便的方法则是直接查“相关系数临界值表”。

　　与对斜率检验等价的还有一种常用的方法∶即对回归方程是否显著作（见后面SAS软件REG过程的输出结果）。

其基本思想是:

计算出y的总离均差平和SST、由回归所能解释的离均差平和SSR，它们的差值就是回归所无法解释的量，称为，记为SSE，然后，用回归的均方除以的均方，构造出F统计量，进而根据F推断出所求的回归方程是否显着。

　　关于SST、SSR、SSE的计算参见本章第４节，此处仅介绍SSR，以便引入１个与相关系数有关的统计量──决定系数

。

　　SSR=r2SST，即r2=SSR/SST，这说明决定系数r2就是回归的离均差平和占y的总离均差平和的百分比，它即建立了相关与回归之间的联系，又通过具体的数量大小反映了回归的贡献大小，这是回归分析中１个十分有用的统计量。

　　对α（截距）作检验的假设和方法如下。

　　H0:

α=0;

H1:

α≠0;

α（显着性水平）=0.05。

　　ta=｜a-0｜/Sa　=｜a｜/Sa，df=n-2　　　　　　　　　　　　　　（4.1.16）　　

　　　　　　　　　　　　　　　　　（4.1.17）

　　[说明]　上述各式中Sy.x称为剩余，是排除了ｘ的影响后，单独ｙ方面的变异大小，常用它作为预报精确度的标志。

因为它的单位与ｙ一致，最容易在实际中进行比较和检验，所以，一个回归能否对仅实际问题有所帮助，只要比较Sy.x与允许的偏差就行。

故它是检验一个回归是否有效的极其重要的标志。

３．与回归分析中区间估计问题──利用回归方程进行预报与控制

　　ρ、α、β的100（1-α）％按式（4.1.18）～（4.1.20）计算。

　　　　　　　　r-tα（n-2）Sr≤ρ≤r+tα（n-2）Sr　　　　　　　　　（4.1.18）

　　　　　　　　a-tα（n-2）Sa≤α≤a+tα（n-2）Sa　　　　　　　　　（4.1.19）

　　　　　　　　b-tα（n-2）Sb≤β≤b+tα（n-2）Sb　　　　　　　　　（4.1.20）

　　若记μy｜x=x0为给定x＝x0条件下ｙ的，则它的100（1-α）％按式

（4.1.21）、（4.1.22）计算。

　　　　　（4.1.21）

　　　　　　　　　　　（4.1.22）

　　在给定x=x0条件下，y的个体值的近似100（1-α）％按式（4.1.23）、（4.1.24）计算，胀仅了对因变量y进行预报的问题。

　　　　　　　　　（4.1.23）　　　　　　　　

　　　　　　　　　（4.1.24）

　　在实际应用时，有时也会遇到与上述情况相反的情形，即给定y=y0，问对应的x0是多少？

胀是所谓的控制（或校准）问题。

在给定y=y0条件下，x0的估计值需按下述２种情形来考虑:

　　①如果x，y都是随机变量，则预测与控制这２个问题的地位是平等的。

可以反过来把y作为自变量而把x作为因变量，这时当然应求从x推算y的方程x^=c+dy，它与从x推算y的方程并不重合，将y＝y0代入此方程，　求得x0的估计值，并用式（4.1.23）、（4.1.24）进行区间估计，注意把公式中的x，y的地位互换;

　　②一般控制问题多用在自变量非随机的场合，因此，不能象①中那样反转过去做。

事实上，在这种场合下，控制问题的性质与预测问题很不一样:

在前者，ｘ虽然未知，但是是１个非随机的变量，取确定的数；

在后者，预测对象ｙ却是随机变量。

　　处理的方法是:

作为ｘ的点估计,仍沿用已求得的方程y^=a+bx解出x^0=（y0-a）/b，但应重新推导出与上面２式类似的公式，以便直接运用。

于是，x0的近似100（1-α）％按式（4.1.25）、（4.1.26）计算。

胀仅了对自变量ｘ进行控制（或校准）的问题。

　　　　　　　（4.1.25）　　　　　　　　

　　　　　（4.1.26）

　　在上２式中，y0是根据n0次观测得到的y的，当y0为理论值时，n0=∞；

当y0为１次观测结果时，n0＝１。

４．与回归分析的应用

　　[例4.1.1A]　给10只中年大鼠注射内毒素（30mg／kg）后，测得每只大鼠的红细胞含量x（×

104/mm3）与血红蛋白含量y（g/L）分别如下，试对x，y两变量进行线性相关和回归分析（设x为自变量，y为因变量）。

　　鼠号　　1　　2　　3　　4　　5　　6　　7　　8　　9　　10

　　x　　654　786　667　605　761　642　652　706　602　539

　　y　　130　168　143　130　158　129　151　153　149　109

　　[分析与解答]　

（1）先介绍用统计公式逐一计算的方法

①绘出10对数据的散布图（此处从略,参见后面SAS输出结果部分），发现各散点呈一直线变化趋势，表明值得进行和回归分析;

②按式（4.1.1）～（4.1.5）和式（4.1.8）、（4.1.9）计算，得

　　lxx=49676.4，　lyy=2730

　　lxy=9886

　　r=0.848915，x-=661.4，y-=142.0，b=0.199008，a=10.376109

　　于是，求得相关系数r=0.848915，y倚x变化的方程为：

　　y^=10.376109+0.199008x

③按式（4.1.6）、（4.1.7）对相关系数（同时也等价于对回归方程的斜率）进行显着性检验

ρ=0;

ρ≠0;

α=0.05。

　　Sr=0.186863

　　tr=4.543，df=8

　　按df=8查t临界值表，得t0.01（8）=3.355，因tr=4.543>

t0.01（8）=3.355，即P<

0.01，在α=0.01水准上拒绝H0，接受H1。

　　用查表法实现上述检验的方法是：

　　查相关系数临界值表，找到df=8所对应的那一行，看r=0.848915在某２个相邻的数之间，与此二值对应的表头上的小数就是P值所在的范围（注意有单、双侧检验之分）。

　　因r0.002（8）=0.847<

r=0.848915<

r0.001（8）=0.872，所以0.001<

0.002（双侧检验），0.0005<

0.001（单侧检验）。

（注∶若事先就有充分的理由认为：

ｘ与ｙ之间只可能是正（或负）相关关系，则宜选用单侧检验;

若理由并不十分充足，则宜选用双侧检验）。

④同理，可用式（4.1.16）、（4.1.17）对截距作显着性检验，若差别不显着，可认为所求的方程通过坐标原点（0，0）；

⑤如果需要，还可按式（4.1.18）～（4.1.26）进行区间估计（从略）。

　　[专业结论]　因r=0.848915>

0，故可以认为ｘ与ｙ之间呈非常显着的正相关关系，也即所求得的方程成立。

　　[说明]　适于进行和回归分析的资料类型为;

当运用求得的方程去对因变量的取值进行预报时，自变量的取值最好不要超出原试验数据的变化范围;

检查方程的计算是否有错的简便方法:

所求的直线应通过（x，y）这一点，即将x代入方程，应得y^≈y。

（2）最后介绍用SAS软件实现统计计算和检验的方法

　　　　[SAS程序]──[D4P1.PRG]

　　DATAabc;

　　　　　　　　　　PROCPLOT;

　　INPUTxy;

　　　　　　　　　　PLOTy*x='

;

　　CARDS;

　　　　　　　　　　　　RUN;

　　654　130　　　　　　　　　　　PROCCORR;

　　786　168　　　　　　　　　　　VARxy;

　　667　143　　　　　　　　　　　RUN;

　　605　130　　　　　　　　　　　PROCREG;

　　761　158　　　　　　　　　　　MODELy=x/RCLICLM;

　　642　129　　　　　　　　　　　PLOT（U95.L95.P.）*x='

　　652　151　　　　　　　　　　　　　　　y*x='

/OVERLAY;

　　706　153　　　　　　　　　　　OUTPUTOUT=aaaP=yhatR=yresid;

　　602　149　　　　　　　　　　　RUN;

　　539　109　　　　　　　　　　　PROCPLOTDATA=aaa;

　　;

　　　　　　　　　　　　　　　PLOTyresid*yhat='

　　OPTIONSLS=64PS=20;

　　　　　RUN;

　　（程序的第１部分）　　　　　　　（程序的第２部分）

　　[程序修改指导]　OPTIONS语句规定输出时每行最多64个字符，每页最多20行，目的是使输出的图形小一些；

第１次调用PLOT过程是为了绘原始数据的散布图，以便了解是否适合作和回归分析，每１对数据用１个“ｓ”表示出来；

第２个过程步是调用CORR过程作相关分析；

第３个过程步是调用REG过程进行分析，在MODEL语句中，因变量放在等号左边，右边各选择项的含义是:

R（作残差分析，同时给出因变量的预测值）、CLI（给出各自变量所对应的因变量的95％的下限与上限值）、CLM（给出各自变量所对应的因变量预测值（）的95％的下限与上限值），紧接此语句之后的PLOT语句第１部分要求以ｘ为横轴，纵轴分别为U95（上限值）、L95（下限值）、P（因变量的预测值），均用“-”表示，将绘出回归直线的置信带；

同时用“o”表示原始数据点，OVERLAY要求将自变量相同因变量取几组不同值的图绘在同１个坐标系内；

OUTPUT语句产生１个输出数据集AAA，内含（ｘ,ｙ）原始数据和ｙ的预测值yhat（即y^）、残差yresid=y-y^；

最后调用PLOT过程绘残差图，把残差放在纵轴上、ｙ的预测值放在横轴上。

　　[输出结果及其解释]　PlotofY*X.　Symbolusedis'

200+

　　|　　　　　　　　　　　　　　　　　　　　　　　　　　s

　　|　　　　　　　　　　　　　　　　　　　　　　　　s

150+　　　　　　　　　　s　　　　s　　　　s

　　|　　　　　　　　　　　　　　　　s

　　|　　　　　　　　　　s　　　ss

　　|　　　　s

100+

　　---+--------+--------+--------+--------+--------+--------+--

　　　500　　　550　　　600　　　650　　　700　　　750　　　800

　　这是原始数据的散布图，不存在某种明显的曲线趋势，各点在１条不太宽的带内随机地着，而且，２变量都是随机变量，故可以继续作和回归分析。

　　　　　　　　　　　CORRELATIONANALYSIS

VAR'

Variables:

　X　　　　Y

　　　　　　　　　　　SimpleStatistics

　Variable　N　　Mean　StdDev　　　Sum　Minimum　Maximum

　X　　　　10　661.4　74.2940　6614.0　　539.0　　786.0

　Y　　　　10　142.0　17.4165　1420.0　　109.0　　168.0

PearsonCorrelationCoefficients/Prob>

|R|underHo:

Rho=0/N=10

　　　　　　　　　　　　　　　X　　　　　　　　Y

　　　　　　X　　　　　1.00000　　　　　0.84892

　　　　　　　　　　　　　0.0　　　　　　　0.0019

　　　　　　Y　　　　　0.84892　　　　　1.00000

　　　　　　　　　　　　　0.0019　　　　　　0.0

　　这是相关分析过程给出的关于、等的简单统计量，皮尔逊（Pearson）相关系数及其显着性检验的P值。

因r=0.84892，P=0.0019，说明２变量之间呈非常显着的正相关关系。

Model:

MODEL1　DependentVariable:

Y　　AnalysisofVariance

　　　　　　　　　　Sumof　　　　Mean

Source　　DF　　　Squares　　　Square　　　FValue　Prob>

Model　　　1　1967.39289　1967.39289　　　20.639　0.0019

Error　　　8　　762.60711　　95.32589

CTotal　　9　2730.00000

　　RootMSE　　　9.76350　　R-square　　　0.7207

　　DepMean　　142.00000　　AdjR-sq　　　0.6857

　　C.V.　　　　　6.87570

　　这是回归过程给出的关于所拟合的方程是否显着的检验结果，这里使用的检验方法是，它与前面讲的关于ρ和β的检验是等价的。

对应的F=20.639，P=0.0019，说明方程是非常显着的,此方程的精确度可用剩余来度量，即Sy.x=9.7635。

　　　　　　　　ParameterEstimates

　　　　　　　　Parameter　　　Standard　　TforH0:

Variable　DF　　　Estimate　　　　Error　Parameter=0　Prob>

|T|

INTERCEP　1　　10.376122　29.13711664　　　　0.356　　　0.7310

X　　　　　1　　　0.199008　　0.04380567　　　　4.543　　　0.0019

　　这是关于截距和斜率的参数估计及其显着性检验结果，α＾=a=10.376122，α与０的差别不显着（P=0.7310），应不要截距重新拟合方程;

β＾=b=0.199008，β与０的差别非常显着（P=0.0019）。

MODEL2

NOTE:

Nointerceptinmodel.R-squareisredefined.

DependentVariable:

Y　　　AnalysisofVariance

　　　　　　　　　　　　Sumof　　　　Mean

Source　　　　　DF　　　Squares　　　Square　　　FValue　Prob>

Model　　　　　　1203595.30396203595.30396　　2365.260　0.0001

Error　　　　　　9　　774.69604　　86.07734

UTotal　　　　10204370.00000

　　RootMSE　　　9.27779　　R-square　　　0.9962

　　DepMean　　142.00000　　AdjR-sq　　　0.9958

　　C.V.　　　　　6.53365

　　这是关于不含截距项的方程是否显着的检验结果,F=2365.26，P<

0.0001

展开阅读全文