多因素分析.docx - 冰点文库

资源描述

多因素分析.docx

《多因素分析.docx》由会员分享，可在线阅读，更多相关《多因素分析.docx（17页珍藏版）》请在冰点文库上搜索。

多因素分析.docx

多因素分析

研究多个因素间关系及具有这些因素的个体之间的一系

列统计分析方法称为多元（因素）分析。

主要包括：

多元线性回归（multiplelinearregression）

判另II分析（disoriminantanalysis）

聚类分析（clusteranalysis）

主成分分析（principalcomponentanalysis）

因子分析（factoranalysis）

典型相关（canonicalcorrelation）

logistic回归（logisticregression）

Cox回归（COXregression）

1>多元回归分析（multiplelinearregression）

回归分析是定量研究因变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。

研究一个因变量对几个自变量的线性依存关系时，其模型称为多元线性回归。

函数方程建立有四种方法：

全模型法、向前选择法、向后选择法、逐步选择法。

全模型法其数学模型为：

y=A）+0內+P^i+…昭+w

式中y为因变量，x\^xi"xP为P个自变量，0u为常数项，f…卩p为待定参数，称为偏回归系数（partialregressioncoefficient）o队艮…0卩表示在其它自变量固定不变的情况下，自变量X,每改变一个单位时，单独引起因变量Y的平均改变量。

£为随机误差，又称残差（residual）,它是在Y的变化中不能为自变量所解释的部分

例如：

1、现有20名糖尿病病人的血糖胰岛素（“mU/L）及生长素（厂，慫/厶）的数据，讨论血糖浓度与胰岛素、生长素的依存关系，建立其多元回归方程。

逐步回归分析（stepwiseregressionanalysis）

在预先选定的几个自变量与一个因变量关系拟合的回归中，每个自变量对因变量变化所起的作用进行显著性检验的结果，可能有些有统计学意义，有些没有统计学意义。

有些研究者对所要研究的指标仅具有初步知识，并不知道哪些指标会有显著性作用，只想从众多的变量中，挑选出对因变量有显著性意义的因素。

一个较理想的回归方程，应包括所有对因变量作用有统计学意义的自变量，而不包括作用无统计学意义的自变量。

建立这样一个回归方程较理想的方法之一是逐步回归分析（stepwiseregressionanalysis）

基本原理：

按这个自变量在方程中对因变量作用的大小，由大到小依次引入方程。

每引入一个自变量都要对回归方程中每一个已引入的（包括刚被引入的）自变量的作用作统计意义检验，若发现一个或几个己被引入的自变量的作用无统计学意义时，即行剔除。

每剔除一个自变量后，也要对留在回归方程中的自变量逐个作统计学意义检验。

如果发现方程中还存在作用无统计学意义的自变量时，也予以剔除，直至没有自变量可引入，也没有自变量可从方程中剔除为止。

最优方程应是：

y=A）+P\x\十…0pXp+£

对y有显著性作用的自变量全部到回归方程中。

凡是对y没有显著性作用的自变量都不被引入方程。

例如：

1、讨论中学生的肺活量的影响因素，观察了10名女中学生的体重（X】，kg）、胸围（X2,cm）、胸围之呼吸差（Xs,cm）及肺活量（Y,ml）o

2、某研究协作组调查煤矿工人II期高血压患者40例，同时调查了工作面的污染程度（XQ、井下工作时间（X：

）、每人的体重（XJ、吸烟年限（£）、饮酒年限（X5）和收缩压（y）,欲分析影响煤矿工人II期高血压患者收缩压高低的主要因素。

3、为探讨影响差等生学习成绩的因素，某儿科医生调查了某学校六年级各班倒数第五名以内学生的平均成绩（y）,并测定了智商（XQ、血清铁（X：

）、血清酮（XJ、日均热卡（XJ、日均食入蛋白量（X5）、头围（x6）和月人均收入（X7）

2、判别分析（discriminantanalysis）

根据己掌握的一批分类明确的样品，制定出一个分类标准用以判断以后新样品的归类。

在医学研究中经常遇到根据某病人的各种症状、体征、化验结果等来判定病人患的什么疾病，如：

根据骨科的X光片的各种特征判断病人属于何种骨瘤？

体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养等。

判别分析在医学领域的主要用途是：

1、疾病诊断：

用判别分析的方法诊断疾病又称为计量诊断。

包括临床诊断、X线诊断、心电图诊断、超声波诊断、脑电图诊断等。

2、疾病预报：

流行病预报、某些疾病（心肌梗死、中风）的早期预报。

3、预后估计：

某些疗法的疗效估计，某些恶性肿瘤患者的生存期估计等。

4、疾病的病因学估计：

研究引起疾病的原因，并分析其主要影响因素。

判别分析:

要求Y变量二分类或多分类的属性变量。

分别用Fisher和Bayes准则进行计算。

同时根据样本中个体的症状、体征选用多元逐步判别分析的方法,来判断病人患的什么疾病。

其判别函数为：

Z=biXi+b:

x2+b3x3•••..+bkxk

对判别函数在实际应用中的判别能力要进行检验。

判别临界ffl:

岭=qy⑷+n2y（b）/+n2]

且：

艸）＞人＞歹0）

所以:

若Y>Yo判为A类；若Y

可以计算各指标的贡献率，进行回代检验其符合率。

例如：

1、有健康人10名，心肌梗死病人6名，分别进行心电图检查得到三个指标X】、X：

、X3O建立这两类人的判别式，以次判别新的就诊患者是否为心肌梗死病人。

2、对正常人和口血病人进行血清学方面的研究，用高分辨核磁共振谱仪分析a峰形，以a峰的高度（XJ和峰腰（XJ的宽度作为观察指标，采集了13名白血病人和11名献血员作为健康人的血清的a峰形。

3、现有己知分类的健康人11人，硬化症患者7人，冠心病患者5人，这23人的心电图的5个指标测量数据，建立判别方程。

3、logistic回归分析

多元线性回归要求y是呈正态分布的连续型随机变量。

医学中常见这样的试验：

动物服药后是生（假设其值为1）还是死（假设其值为0）,或是发病

（1）还是未发病（0）等。

当因变量取值为（0,1）,自变量可能是分类变量，也可能是连续变量时，用线性回归分析的方法进行处理是不合适的，应选用Logistic回归。

Logistic回归属于概率型回归，用来分析某类事件发生的概率与口变量之间的关系。

适用于因变量为二值变量（或多分类）的情形。

基本概念：

因变量的预测值在0~1之间。

如根据冠心病病人的饮食特点、吸烟史、生活的方式、得病的类型等数据资料，建立一个logiStic回归方程来预测病人的冠心病的可能性。

数学模型：

y=ln[p//（l-吠

式中：

匕是在条件勺=（夠，切，也％）下，某事件发生的概率，

1-厂是该事件不发生的概率。

其中，,=1~加，m是自变量的个数。

a是截距，S是待估计的参数。

Logistic回归方程的曲线为S型，预测值最大值趋近1,最小值趋近Oo

logistic回归方程的另一种表达形式：

强叭通过变换[l+exp（y）J

可以得出P与多元变量Xi间的数学表达式：

l+exp（G+》$Xj）

\-p=5

exp（rz+£/?

%；）

例如：

1、某医生研究哪些指标可以判断糖尿病患者是否动脉硬化，将临床症状颈总动脉中层厚度imt0.8mm或有斑块定义为动脉硬化，记为因变暈type=1,非硬化imt<0.8mm且无斑块，记为因变量type=0。

选择自变量为年龄（age）>尿白蛋白（ALB）、体重指数（BMI）、胰岛素敏感指数（ISI）、收缩压（SBP）、甘油三脂（TG）、胆固醇（CH0）、糖尿病病程（DURA）o

2、某医院为研究医院内尿路感染的主要危险因素，回顾调查了某年

三个月份在住院期间实施保留导尿的200名患者，分别记录了

危险因素

变量名

定义

性别

X：

女=0,男二1

年龄（岁）

X：

<30=0,30、=1,50、二2,70~二3

插管前住院时间（天）

<3=0,3~=1,10、二2,20、二3

导尿方式

闭式二0,开放式=1

导尿期间无抗生素持续冲洗

否=0,是=1

留置导尿时间

<3=0,3~=1,10~二2,20、二3

感染前有无输血史

X；

无=0,有=1

感染前有无应用免疫抑制剂

无-0,用-1

插管前血浆肌酊水平

<80=0,80、=1,170~二2

有无糖尿病

XiO

否二0,是=1

尿路感染

未感染二1,感染=0

分析可能在医院内尿路感染的危险因素。

4、比例风险模型一C0X回归

常用统计描述和统计推断的方法有：

分位数、中数生存期、平均数、生存函数古迹、判断生存时间分布、非参数检验、寿命表法、log-rank检验（对数秩检验）等。

这些方法己经系统地应用在医学的医疗评价和预后的因素分析中。

医学临床生存资料有别于其他资料，特别是医学临床随访资料很难用一般统计方法来处理多种因素对生存时间序列的影响。

资料的特点是：

1、危险度的变化规律种类多且难以确定。

2、资料中存在失访（截尾）数据。

3、同是考虑多个变量（连续的或离散的）影响难以控制。

非参数可以解决前两个问题，参数法可以解决后两个问题。

所以实际应用中有很大的局限性。

Logistic模型中对任一个观察对象的失效处理都是相同的，无论失效发生在随访期的开始或结束，所以当分析变量与失效的关系时且需要考虑失效时间的作用时，logistic回归模型就不完全适用了。

而任一变量对失效的作用完全独立于随访期的长短，直接影响结论的可靠性和稳定性。

1972年英国生物统计学家D.R.Cox提出半参数的比例风险模型Cox回归模型（Coxregressionmodel）,1975年由油料新的补充。

Cox模型是将生存时间和因素间的关系用回归方式来表示，主要解决多因素（如年龄、职业、吸烟、饮酒、病情、治疗方法等）对生存期（恢复期）的影响。

对于每一个研究的病人除去要考察的因素外，必须有生存时间变量（t）和结局变量（d）。

风险函数为：

=〃（〉（f）cxp（勺X]+b2x2+b3x3+-+bpxp）

〃⑴为风险函数，又称风险率或瞬间死亡率。

九⑴为基准风险函数，是与时间有关的任意函数。

例如：

1、某省肿瘤医院调查1991-1994年间经手术治疗的66例大肠癌患者的资料，对可能影响大肠癌术后的临床病理因素进行分析,以探讨这些因素病理因素对大肠癌术后的综合影响。

危险因素

变量名

定义

性别

女二0,男二1

年龄（岁）

<40=1,40、59二2,60~二3

组织学分类

乳头状腺癌=0,管状腺癌二1

肿瘤大小（cm）

6二0,其它二1

Dure's分期

A二1,B=2,03,D二4

细胞增殖抗原（PCNA）

<55%=0,55%=1

淋巴管侵润

z；

无=0,有=1

血管侵润

无二0,用二1

手术到观察结束

实际天数

结束时是否死亡

生存二0,死亡二1

2、研究天花粉注射治疗绒癌疗效的试验，将16只体表接种成功的裸鼠分为4组，其中一组作为对照，其余三组分别注射天花粉、甲药和乙药，得到如下数据：

试作Cox分析。

危险因素

变量名

定义

带瘤天数

天数

瘤体大小

X：

天花粉治疗

无二0,有二1

甲药治疗

无二0,有=1

乙药治疗

无二0,有二1

维生素

民

不用二0,用=1

生存天数

day

实际天数

结局

生存=0,死亡=1

附例题：

文件名“sars'

建立永久数据集

libname1’d:

‘；

dataa;

set1.sars3;

run;

读出数据集，选择确诊和发烧病人

dataa;

setal;

ifgroup=2thedelete;

run;

逐步判别分析：

procstepdiscmethod二stepwisesle=0.05sls=0.05;

classgroup;

varcpnbentbhlnl2h5nlbinfabinfbbinfb2b

mpnbpivlbpiv3brsvnabrsvnbbsarslbsarslmtbsars2bsars3b;Quit;

将逐步判别筛选出的变量作回代：

procdiscrim;

classgroup;

varh5nlbentbinfb2bsars2bsars3bmpnbsarslb;

*varinfb2bcpnbh5nlbpiv3brsvnbbsars3b;

quit;

计算疑似与发烧病人的逐步logistic回归：

datab;

set1.sars3;

ifgroup=lthedelete;

run;

databl;

setb;

ifgroup=2thengroupn=l:

ifgroup=3thengroupn=0;

proclogisticdescending;

modelgroupn=cpnbentbhlnl2h5nlbinfabinfbbinfb2b

mpnbpivlbpiv3brsvnabrsvnbbsarslbsarslmtbsars2bsars3b/selection=stepwiseclodds=plsle=0.15sls=0.15;

*modelgroupn=cpnbentbhlnl2h5nlbinfabinfbbinfb2b

mpnbpivlbpiv3brsvnabrsvnbb

sarslbsarslmtbsars2bsars3b;

*modelgroupn=cpnbentbhlnl2h5nlbinfabinfbbinfb2b

mpnbpivlbpiv3brsvnabrsvnbb/selection=stepwiseclodds=pl

sle=0.15sls=0.15;*/

quit；

计算确诊和发烧病人的logistics回归分析：

datac;

set1.sars3;

ifgroup=3thendelete;

run;

databl;

setc;

ifgroup=lthengroupn=l:

ifgroup=2thengroupn=0;

proclogisticdescending;

modelgroupn=cpnbentbhlnl2h5nlbinfabinfbbinfb2b

mpnbpivlbpiv3brsvnabrsvnbbsarslbsarslmtbsars2bsars3b/selection=stepwiseclodds=plsle=0.15sls=0.15;

*modelgroupn=cpnbentbhlnl2h5nlbinfabinfbbinfb2b

mpnbpivlbpiv3brsvnabrsvnbbsarslbsarslmtbsars2bsars3b;

*modelgroupn=cpnbentbhlnl2h5nlbinfabinfbbinfb2bmpnbpivlbpiv3brsvnabrsvnbb/selection=stepwiseclodds=plsle=0.15sls=0.15;

quit;*,

BACKGROUND

274.5

140.5

SAMPLE]

疑似

296

1.078324

196

1.395018

SAMPLE2

疑似

296

1.078324

209

1.487544

SAMPLE3

疑似

206

0.750455

195

1.3879

SAMPLE4

疑似

230

0.837887

223.5

1.590747

SAMPLES

疑似

240.5

0.876138

245.5

1.747331

SAMPLE6

疑似

251

0.91439

178

1.266904

SAMPLE7

疑似

224.5

0.817851

369.5

2.629893

SAMPLE8

确诊

390

1.420765

251

1.786477

SAMPLE9

确诊

219.5

0.799636

364

2.590747

SAMPLE10

确诊

228

0.830601

293

2.085409

Logistics（B类与C类病人拟和）

ClassificationTable

VariablesintheEquation

S.E・

Wald

Sig.

Exp（B

StepINFB21-3.6.585

39.835

.000・025

Predicti

Observed

TYPE

Step

TYPE

52.9

106

82.8

OverallPercentagi

70.9

Step

TYPE

57.6

105

82.0

OverallPercentagi

72.3

Step

TYPE

61.2

106

82.8

OverallPercentagi

74.2

Step

TYPE

68.2

109

85.2

OverallPercentagi

78.4

aThecutvalueis・500

Constai

4.41

・66E

44.859

.000

85.73

Step

INFBE

-・T

・25£

9.056

.003

.461

INFB21

-3.7

.60]

38.555

.000

.024

Constai

5.8（

.84（

47.784

.000

331.5：

Step

INFBE

-1.1

・30£

13.998

.000

・316

INFB2）

-4.0

•63£

40.996

.000

.017

PIV1E

2.5（

•69?

13.938

.000

13.31

Constai

3.2：

1.04

9.686

.002

25.50

Step

INFBE

-1.2

•32】

14.869

.000

・290

INFB2）

-4・5

・69£

42.031

.000

.011

PIV1E

2.9（

.73-

16.330

.000

19.31

RSVNA1

2.31

.71（

10.812

.001

10.54

Constai

.97

1.24

.612

・434

2.64（

Variable（s）

enteredon

step1:

INFB2B・

Variable（s）

enteredon

step2:

INFBB.

Variable（s）

enteredon

step3:

PIV1B・

Variable（s）

enteredon

step4:

RSVNAB.

Logistics（疑似与发烧病人拟和）包括SARS病毒

ClassificationTable

Predici

TYPEPercentageCorrec

Observed

Step

TYPE

73.2

92.6

OverallPercentage

86.8

Step

TYPE

87.8

96.8

OverallPercentage

94.1

Step

TYPE

92.7

97.9

OverallPercentage

96.3

Step

TYPE

90.2

95.8

OverallPercentage

94.1

Step

TYPE

92.7

96.8

OverallPercentage

95.6

Step

TYPE

97.6

98.9

OverallPercentage

98.5

aThecutvalue

is・500

VariablesintheEquation

S.E.

Wald

Sig.

Exp（B）

Step

INFB2）

-8.810

1.529

33.179

.000

Constai

10.449

1.746

35.812

.000

34524.09

Step

H5N1E

8.792

2.241

15.387

.000

6582.40（

INFB2）

-12.319

2.360

27.254

.000

・000

Constai

6.168

2.104

8.596

.003

477.220

Step

H5N1E

8.121

2.415

11.307

.001

3364.19E

INFB2）

-13.139

2.863

21.065

.000

PIV3E

5.558

2.055

7.312

.007

259.262

Constai

1.774

2.559

.480

・488

5.893

Step

H5N1E

9.657

2.923

10.914

.001

展开阅读全文