最新08相关分析与回归分析.docx

资源描述

最新08相关分析与回归分析.docx

《最新08相关分析与回归分析.docx》由会员分享，可在线阅读，更多相关《最新08相关分析与回归分析.docx（98页珍藏版）》请在冰点文库上搜索。

最新08相关分析与回归分析.docx

最新08相关分析与回归分析

08相关分析与回归分析

第八章相关分析与回归分析

医学上人的身高与体重、血压与年龄、药物剂量与疗效、肺活量与体重和胸围等均有一定的联系。

说明客观事物或现象相互间数量关系的密切程度并用适当的统计指标表示出来，这是相关分析的任务。

而研究某个结局（因变量）与其它影响因素（自变量、解释变量、协变量）之间的数量关系，并用函数形式表示出来，则是回归分析要解决的问题。

下面依次介绍有关内容。

8.1相关分析

8.1.1概述

描述两个变量间相关关系的统计指标称为相关系数。

现以两个变量的直线相关分析为例，说明相关系数的意义。

研究变量X和Y的直线相关关系用直线相关系数（记为r），其计算公式为：

（8.1）

其值为－1≤r≤1。

r值为正表示正相关，即X和Y同时增大或减小，变化趋势是同向的；反之，r值为负表示负相关，即X和Y呈反向变化。

r等于零为零相关，表示X和Y无直线相关关系；r值的绝对值为等于1为完全相关，即X和Y严格服从直线关系。

在生物界由于影响因素众多，因此r值一般界于－1与1之间。

r的绝对值越接近1，表示两变量间直线相关程度越高。

r为总体相关系数ρ的样本估计值，所以一般还要需做ρ=0的假设检验。

在用相关分析的方法解决实际问题时，应根据资料类型和分析要求，选择恰当的方法，SAS中可作如下相关分析：

统计量

意义

SAS过程

资料要求

直线（Pearson）相关系数

两个变量间的直线相关性

CORR

二元正态分布资料

等级（Spearman）相关系数

两个变量间的等级相关性

CORR

二元非正态分布或等级资料

复相关系数

一个变量与一组变量间的相关性

CANCORR

多元正态分布资料

典型相关系数

两组变量的相关性

CANCORR

多元正态分布资料

偏相关系数

固定其它变量时两个变量间的相关性

CORR

－

本节介绍PROCCORR的应用。

CANCORR的用法详见多元统计分析部分。

但PROCREG中会给出复相关系数。

8.1.2CORR过程

1.CORR过程的语句组成。

*PROCCORRoptions;

*VAR变量表；

WITH变量表；

PARTIAL变量表；

WEIGHT变量；

BY变量表；

END;

2.CORR过程的语句说明。

（1）PROCCORR语句

格式：

PROCCORRoptions;

选择项主要有：

PEARSON计算通常的Pearson相关系数，即直线相关系数，是缺省值。

SPEARMAN计算Spearman等级相关系数。

KENDALL计算Kendallτ系数。

OUT=dataset产生含有Pearson相关系数的一个新数据集。

NOMISS将带有某一变量缺失值的观测值从所有计算中除去。

NOSIMPLE取消打印每个变量的描述统计量。

（2）WITH语句

指明配对的变量名。

与VAR语句配合使用，VAR语句列出相关矩阵上部出现的变量，WITH语句列出左侧出现的变量。

使用WITH语句后，把变量分成WITH组和非WITH组，只计算两组间两两变量的相关系数。

（3）PARTIAL语句

作偏相关分析时，指定相对固定的那些变量，此时将自动激活NOMISS选择项。

注意PARTIAL语句指定的变量名不能出现在VAR或WITH语句中。

8.1.3直线相关分析与偏相关分析

例8.1研究肺活量时测得10名女中学生体重x1（kg）、胸围x2（cm）、呼吸差x3（cm）及肺活量y（ml），数据如下：

表8.110名女中学生体重、胸围、呼吸差及肺活量

体重

x1（kg）

胸围

x2（cm）

呼吸差

x3（cm）

肺活量

y（ml）

0.7

1600

2.5

2600

2.0

2100

3.0

2650

1.1

2400

1.5

2200

4.3

2750

2.0

1600

3.2

2750

3.0

2500

下面先用DATA步建立计算用数据集，再用PROCCORR作两两变量间的直线相关分析，最后作固定体重时肺活量与胸围和呼吸差的偏相关分析。

DATACORR1;

INPUTX1X2X3Y;

CARDS;

35600.71600

40742.52600

……

42653.02500

;

PROCCORR;

VARX1X2X3Y;

RUN;

PROCCORRNOSIMPLE;

VARY;

WITHX2X3;

PARTIALX1;

RUN;

结果如下：

CORRELATIONANALYSIS

4'VAR'Variables:

X1X2X3Y

SimpleStatistics

VariableNMeanStdDevSumMinimumMaximum

X11040.500003.30824405.0000035.0000045.00000

X21068.800005.28730688.0000060.0000078.00000

X3102.330001.0873523.300000.700004.30000

Y102315434.005892315016002750

CORRELATIONANALYSIS

PearsonCorrelationCoefficients/Prob>|R|underHo:

Rho=0/N=10

X1X2X3Y

X11.000000.431950.640930.69454

0.00.21250.04580.0258

X20.431951.000000.629270.76165

0.21250.00.05130.0105

X30.640930.629271.000000.72882

0.04580.05130.00.0168

Y0.694540.761650.728821.00000

0.02580.01050.01680.0

PROCCORR的缺省输出包括各变量的描述性统计量（例数N、均数Mean、标准差StdDev、总和Sum、最小值Minimum、最大值Maximum）和变量两两之间的Pearson相关系数矩阵，在每个相关系数下方给出了对应的总体相关系数为零的假设检验的概率。

当需要计算数据集中所有变量两两之间的相关系数时，VAR语句可以省略。

由输出结果可见，肺活量与体重、胸围、呼吸差之间的相关系数分别为0.69454（P=0.0258）、0.76165（P=0.0105）和0.72882（P=0.0168），肺活量与体重之间的相关系数最小。

下面的结果反映了体重固定时，肺活量与胸围、呼吸差之间的偏相关系数。

CORRELATIONANALYSIS

1'PARTIAL'Variables:

2'WITH'Variables:

X2X3

1'VAR'Variables:

PearsonPartialCorrelationCoefficients

/Prob>|R|underHo:

PartialRho=0/N=10

X20.71146

0.0316

X30.51366

0.1572

我们在PROCCORR语句中用了NOSIMPLE选择项，所以没有打印有关变量的描述性统计量。

VAR语句与WITH语句结合使用，输出结果中只包含Y与X2、X3之间的偏相关系数。

可见在体重相同的女中学生中，肺活量与胸围之间仍保持了较大的相关性，而与呼吸差之间的相关性较小，且无统计显著性（P=0.1572）。

用ry1、ry2和r21表示分别y与x1、x2，x2与x1之间的相关系数，ry2·1表示固定x1时y与x2之间的偏相关系数，则

（8.2）

实际上，在研究多个变量中两两之间的相关性时，把两变量之外的其它变量作为固定变量所求得的偏相关系数更能真实地反映两变量之间的相关程度。

8.1.4等级相关

在相关分析中，要求x、y两变量均服从正态分布。

若不满足这一条件，要定量地描述两变量的协同变化，宜计算等级相关系数。

等级相关适用于下列资料：

①不服从双变量正态分布②总体分布型未知③原始数据是用等级表示。

例8.2在肝癌病因研究中，某地调查了10个乡的肝癌死亡率（1/10万）和食物中黄曲霉毒素相对含量，数据如下：

表8.2肝癌死亡率（1/10万）和黄曲霉毒素相对含量

黄曲霉毒素

相对含量

肝癌死亡率

（1/10万）

秩次

0.7

21.5

1.0

18.9

1.7

14.4

3.7

46.5

4.0

27.3

5.1

64.6

5.5

46.3

5.7

34.2

5.9

77.6

10.

10.0.

10.

55.1

程序如下：

DATARANKCORR;

INPUTXY@@;

CARDS;

0.721.51.018.91.714.43.746.54.027.3

5.164.65.546.35.734.25.977.610.055.1

;

PROCCORRNOSIMPLESPEARMAN;

VARXY;

RUN;

输出结果为：

CORRELATIONANALYSIS

2'VAR'Variables:

SpearmanCorrelationCoefficients

/Prob>|R|underHo:

Rho=0/N=10

X1.000000.74545

0.00.0133

Y0.745451.00000

0.01330.0

在PROCCORR语句中用了NOSIMPLE选择项，取消打印各变量的描述性统计量，而SPEARMAN选择项则要求计算变量间的等级相关系数。

这里我们使用了肝癌死亡率和黄曲霉毒素相对含量的原始数据，其实也可用相应的秩次替换原始数据，计算结果完全相同，这说明了Spearman相关系数是按数据的秩次计算出来的，读者不妨一试。

输出结果表明肝癌死亡率和食物中黄曲霉毒素相对含量有较高的正相关性（rs=0.74545，P=0.0133）.

8.2回归分析

8.2.1概述

回归分析研究变量之间的依存关系。

如果因变量Y和自变量（或称解释变量）X呈直线关系时，称直线回归。

直线回归要求Y服从正态分别且方差相等。

多元回归分析用以研究一个因变量与多个自变量之间线性依存关系。

当变量间不是线性关系时，通常需进行数据转换以满足所需条件，再进行线性回归分析。

当然有时也需要用原始数据进行非线性的回归分析。

根据资料类型，SAS可以进行如下各类回归分析：

常用SAS过程

回归类型

资料类型

因变量

自变量

REG

线性回归

数值变量

STEPWISE

逐步线性回归

数值变量

GLM

协方差模型、一般线性模型

数值变量

数值变量、分类变量

LOGISTIC

Logistic回归

分类变量

数值变量、分类变量

CATMOD

Logistic、Poisson回归等

分类变量

数值变量、分类变量

NLIN

非线性回归

数值变量

本章涉及PROCREG和PROCGLM的用法。

PROCLOGISTIC和PROCCATMOD在后文有专门章节。

PROCSTEPWISE的功能在PROCREG中能够实现，而PROCNLIN的使用涉及较多数学知识，这里均未作介绍。

回归分析涉及以下几方面内容：

（1）估计：

估计与方程有关的未知参数，并检验对于这些参数所作的统计假设；

（2）预报：

用所得的回归方程对自变量的一组值,估计因变量的值（点估计和区间估计）；

（3）自变量选择：

从可能对因变量y有影响的一组自变量中，挑选出对y有重要影响的变量，剔除对y影响不大的变量；或者按某种标准，建立一个“最优”的回归方程。

（4）模型的诊断：

检查数据、回归方程、统计推断方法中可能存在的问题，建立较合理的、稳健的模型。

建立的回归方程在医学领域有许多应用：

（1）描述：

即可用来描述某种现象与其影响因素的数量依存关系，如某疾病发病率与气温、湿度的关系。

（2）预测：

即把预报因子（自变量）代入回归方程对预报量（因变量）及其波动范围进行估计。

（3）控制：

根据回归方程进行逆运算，即要求因变量在一定范围内波动，可以通过控制自变量的取值来实现。

例如，通过建立大气中NO2浓度与汽车流量的回归方程，管理部门可以通过控制汽车流量来控制大气中NO2浓度。

8.2.2REG过程

1.REG过程的语句组成。

*PROCREGoptions;

VAR变量表；

BY变量表；

FREQ变量表；

WEIGHT变量表；

--------------------------------------------------------------------------------------

*[标号：

]MODEL因变量＝自变量表[/选择项]；

[标号：

]TEST回归系数假设等式…；

[标号：

]MTEST设置回归系数相等的假设…；

OUTPUTOUT=SAS数据集[统计量关键词＝变量[，变量…]]

PROCREG语句是必须的，在它后面至少有一个MODEL语句或VAR语句。

若只有VAR语句，则过程对这个语句指定的变量计算由语句要求的统计量，但不作回归分析。

2.REG过程的语句说明。

（1）PROCREG语句

格式：

PROCREGoptions;

选项有：

OUTEST=SAS数据集将过程中的各回归模型的参数估计值存入数据集。

COVOUT=SAS数据集将该估计的协方差阵存入数据集。

OUTSSCP=SAS数据集指定输出相关矩阵到TYPE=SSCP的数据集中。

该

数据集含有平方和及变量叉积。

当有大量数据要在

不同的过程中使用时，该选择项很有帮助。

NOPRINT不打印输出。

（2）MODEL语句

指定回归模型中因变量和自变量及有关回归计算、估计、预测值和残差等。

常用的选择项有：

STB打印标准化回归系数。

P计算出数据集中每一个观测值y的期望值及其标准误。

R请求残差分析。

CLI输出每一观测值因变量期望值（均数）的95％可信区间。

CLM计算每一观测值因变量的95％容许区间。

COVB输出估计值的协方差阵。

CORRB输出估计值的相关矩阵。

VIF方差膨胀因子。

COLLIN要求进行多元共线性分析。

INFLUENCE要求分析每个观测值对参数估计和模型预测值的影响。

（3）VAR语句

列出叉积矩阵中的变量。

仅当具有OUTSSCP＝dataset这个选择才使用。

（4）TEST和MTEST语句

这两个语句要求检验在本语句前MODEL语句中参数估计的假设。

每个等式指定一个线性假设检验。

①TEST语句用于单个因变量的回归模型。

语句中有用户给出表达回归系数假设的一个等式。

在这个等式中等号两边都可以是自变量和常数的一个线性组合，也可以只写出等式的一边，这时省略的部分被认为是等号和零。

下面是合法的TEST语句：

MODELY=X1-X4;

TESTX1=X2;

TESTX1+X2=1;

TESTX1=2*X2+1;

TESTX1,X2;

语句前面的标号是可选的。

为便于阅读，在该项假设检验的打印内容前面都冠以语句指定的标号。

语句中的自变量必须是当前回归模型中的自变量，每个自变量只代表它在回归模型中对应的系数，而不是自变量本身。

TESTx1=x2,x2=x3,x3=x4;允许写成TESTx1=x2=x3=x4;

②MTEST语句用于多个因变量的回归模型。

MTEST语句同样有可选的标号以及一个或几个等式，各等式要以逗号分隔。

这些等式分为两类，一类等式的格式和意义跟TEST语句中的一样，指含自变量和常数；另一类等式只包含因变量（不允许出现非零的常数项）；

（5）OUTPUT语句

OUTPUT语句的作用是建立一个数据集，存入原始观测数据以及关于每个观测值的统计量，并为该统计量的变量命名。

统计量关键词用来指定一个统计量。

等号右边的几个变量名用来定义MODEL语句中属于第一个因变量、第二个因变量、…的统计量。

8.3直线回归

8.3.1方法概述

1.直线回归方程的建立

因变量Y与自变量X的直线回归方程的一般表达式为

（8.3）

式中的a、b是决定直线的两个系数。

a为回归直线在Y轴上的截距（intercept）。

b为回归系数（regressioncoefficient），即直线的斜率，反映了自变量X变化一个单位时，因变量Y的平均变化量。

根据最小二乘原理，求a、b使得

达到最小，则

（8.4）

（8.5）

2.直线回归方程的假设检验

（1）因变量离均差平方和的分解：

因变量的离均差（Y-

）可分解为两部分：

（Y-

）＝（

）＋（Y-

）（8.6）

上式右边的第一项与X有关，第二项称为残差或剩余。

可以证明：

（8.7）

因变量离均差平方和＝回归平方和＋剩余平方和

用符号表示则为

SST（总）=SSR（回归）+SSE（剩余）（8.8）

SSR＝

，为回归平方和，它反映在Y的总变异中由于X与Y的直线关系而使Y变异减小的部分，也就是在总平方和中可以用X解释的部分。

SSR越大，说明回归效果越好。

SSE＝

，为剩余平方和，它反映X对Y的线性影响之外的一切因素对Y的变异的作用，也就是在总平方和中无法用X解释的部分。

在散点图中，各实测点离回归直线越近，SSE也就越小，说明直线回归的估计误差越小。

另外，还可以用决定系数（coefficientofdetermination,R2）来表示两变量间回归关系的强度。

决定系数的计算公式为：

R2＝SSR/SSE（8.9）

可见R2越大，回归效果越好。

在一般的线性回归分析中，还应将R2按模型中包含的参数个数进行校正，称为校正R2（记作Adj-R2），其计算公式为：

Adj-R2=1-（1-R2）（n-1）/（n-k-1），（8.10）

k是模型中的参数个数（不包含截距），直线回归中k=1。

（2）方差分析法：

根据离均差平方和的分解，计算检验统计量F值：

（8.11）

式中MSR为回归均方，MSE为剩余均方，

为回归方程的自由度，

为剩余变异的自由度。

求得F值后，按F分布F（1,n-2）确定P值，再根据检验水准作出推断结论。

（3）回归系数的t检验：

对总体回归系数为零的假设也可采用t检验：

，ν＝n-2（8.12）

（8.13）

式中sb为样本回归系数的标准误；sY·X剩余标准差，表示扣除自变量X影响后因变量Y的变异程度。

求得t值后，按t分布t（n-2）确定P值，再根据检验水准作出推断结论。

对直线回归来说，模型的F检验与回归系数的t检验是等价的。

3.直线回归的区间估计

（1）因变量期望值（均数）

的估计：

是总体中当X为某定值时Y的均数。

是其估计值，表示其抽样误差的标准误

按下式计算：

（8.14）

而

的1－α可信区间为

（

），缩写为

（8.15）

（2）因变量个体值Y的容许区间：

即总体中当X为某定值时Y的波动范围。

可用于估计因变量的参考值范围，其标准差sY按下式计算：

（8.16）

而Y的1－α容许区间为

（

），缩写为

（8.17）

8.3.2实例分析

例8.3为研究某食品的营养价值，用大白鼠作试验，得大白鼠进食量（克）和增加体重（克）间关系的数据如下,试作直线回归分析。

表8.3大白鼠进食量（克）和增加体重（克）间关系的数据

动物编号

进食量（克）x

820

780

720

867

690

787

934

679

639

820

增加体重（克）y

165

158

130

180

134

167

186

145

120

158

编写SAS程序如下，先建立数据集，再用PROCREG作直线回归：

DATAREG1;

INPUTXY;

CARDS;

820165

780158

……

820158

;

PROCREG;

MODELY=X/CLICLM;

RUN;

结果输出如下：

Model:

MODEL1

DependentVariable:

AnalysisofVariance

SumofMean

SourceDFSquaresSquareFValueProb>F

Model13737.410633737.4106360.1970.0001

Error8496.6893762.08617

CTotal94234.10000

RootMSE7.87948R-square0.8827

DepMean154.30000AdjR-sq0.8680

C.V.5.10660

ParameterEstimates

ParameterStandardTforH0:

VariableDFEstimateErrorParameter=0Prob>|T|

INTERCEP1-17.35745622.26443147-0.7800.4581

X10.2218940.028599497.7590.0001

DepVarPredictStdErrLower95%Upper95%Lower95%Upper95%

ObsYValuePredictMeanMeanPredictPredictResidual

1165.0164.62.823158.1171.1145.3183.90.4041

2158.0155.72.498150.0161.5136.7174.8

展开阅读全文