ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:24.95KB ,
资源ID:5323195      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-5323195.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(多因素分析.docx)为本站会员(b****3)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

多因素分析.docx

1、多因素分析多因素分析研究多个因素间关系及具有这些因素的个体之间的一系列统计分析方法称为多元(因素)分析。主要包括:多元线性回归(multipl e linear regression)判另II分析 (disoriminant analysis)聚类分析(cluster analysis)主成分分析 (principal component analysis)因子分析(factor analysis)典型相关 (canonical correlation)logistic 回归 (logistic regression)Cox 回归(COX regression)1 多元回归分析(multipl

2、e linear regression)回归分析是定量研究因变量对自变量的依赖程度、分析变量之间 的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变 量的线性依存关系时,其模型称为多元线性回归。函数方程建立有四 种方法:全模型法、向前选择法、向后选择法、逐步选择法。全模型法其数学模型为:y = A)+ 0內+ Pi +昭+ w式中y为因变量,xxi xP为P个自变量,0u为常数项, f 卩p为待定参数,称为偏回归系数(partial regression coefficient)o队艮0卩表示在其它自变量固定不变的情况下,自变 量X,每改变一个单位时,单独引起因变量Y的平均改变量。为

3、随机误差,又称残差(residual),它是在Y的变化中不能为 自变量所解释的部分例如:1、现有20名糖尿病病人的血糖胰岛素 (“mU/L)及生长素(厂,慫/厶)的数据,讨论血糖浓度与胰岛素、 生长素的依存关系,建立其多元回归方程。逐步回归分析(stepwise regression analysis)在预先选定的几个自变量与一个因变量关系拟合的回归中,每个 自变量对因变量变化所起的作用进行显著性检验的结果,可能有些有 统计学意义,有些没有统计学意义。有些研究者对所要研究的指标仅 具有初步知识,并不知道哪些指标会有显著性作用,只想从众多的变 量中,挑选出对因变量有显著性意义的因素。一个较理想的

4、回归方程,应包括所有对因变量作用有统计学意义 的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归 方程较理想的方法之一是逐步回归分析(stepwise regression analysis)基本原理:按这个自变量在方程中对因变量作用的大小,由大到 小依次引入方程。每引入一个自变量都要对回归方程中每一个已引入 的(包括刚被引入的)自变量的作用作统计意义检验,若发现一个或 几个己被引入的自变量的作用无统计学意义时,即行剔除。每剔除一 个自变量后,也要对留在回归方程中的自变量逐个作统计学意义检验。 如果发现方程中还存在作用无统计学意义的自变量时,也予以剔除, 直至没有自变量可引入,也没有

5、自变量可从方程中剔除为止。最优方程应是:y = A)+ Px十0pXp+对y有显著性作用的自变量全部到回归方程中。凡是对y没有显 著性作用的自变量都不被引入方程。例如:1、 讨论中学生的肺活量的影响因素,观察了 10名女中学生的体 重(X】,kg)、胸围(X2, cm)、胸围之呼吸差(Xs, cm)及肺活量(Y, ml )o2、 某研究协作组调查煤矿工人II期高血压患者40例,同时调查 了工作面的污染程度(XQ、井下工作时间(X:)、每人的体重(XJ、 吸烟年限()、饮酒年限(X5)和收缩压(y),欲分析影响煤矿工人 II期高血压患者收缩压高低的主要因素。3、 为探讨影响差等生学习成绩的因素,

6、某儿科医生调查了某学校 六年级各班倒数第五名以内学生的平均成绩(y),并测定了智商(XQ、 血清铁(X:)、血清酮(XJ、日均热卡(XJ、日均食入蛋白量(X5)、 头围(x6)和月人均收入(X7)2、判别分析(discriminant analysis)根据己掌握的一批分类明确的样品,制定出一个分类标准用以判 断以后新样品的归类。在医学研究中经常遇到根据某病人的各种症状、 体征、化验结果等来判定病人患的什么疾病,如:根据骨科的X光片 的各种特征判断病人属于何种骨瘤?体育选材中根据运动员的体形、 运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队 继续培养等。判别分析在医学领域的主要用

7、途是:1、疾病诊断:用判别分析的方法诊断疾病又称为计量诊断。包 括临床诊断、X线诊断、心电图诊断、超声波诊断、脑电图诊断等。2、 疾病预报:流行病预报、某些疾病(心肌梗死、中风)的早期 预报。3、 预后估计:某些疗法的疗效估计,某些恶性肿瘤患者的生存期 估计等。4、 疾病的病因学估计:研究引起疾病的原因,并分析其主要影响 因素。判别分析:要求Y变量二分类或多分类的属性变量。分别用Fisher 和Bayes准则进行计算。同时根据样本中个体的症状、体征选用多元逐步判别分析的方法, 来判断病人患的什么疾病。其判别函数为:Z = biXi + b:x2 + b3x3 .+ bkxk对判别函数在实际应用

8、中的判别能力要进行检验。判别临界ffl:岭=q y + n2 y(b) /+n2且:_ _艸)人歹0)所以:若YYo判为A类;若YY0判为B类。可以计算各指标的贡献率,进行回代检验其符合率。例如:1、有健康人10名,心肌梗死病人6名,分别进行心电图检查 得到三个指标X】、X:、X3O建立这两类人的判别式,以次判别新的就 诊患者是否为心肌梗死病人。2、 对正常人和口血病人进行血清学方面的研究,用高分辨核磁 共振谱仪分析a峰形,以a峰的高度(XJ和峰腰(XJ的宽度作为观察 指标,采集了 13名白血病人和11名献血员作为健康人的血清的a峰 形。3、 现有己知分类的健康人11人,硬化症患者7人,冠心病

9、患者 5人,这23人的心电图的5个指标测量数据,建立判别方程。3、logistic回归分析多元线性回归要求y是呈正态分布的连续型随机变量。医学中常 见这样的试验:动物服药后是生(假设其值为1)还是死(假设其值 为0),或是发病(1)还是未发病(0)等。当因变量取值为(0, 1), 自变量可能是分类变量,也可能是连续变量时,用线性回归分析的方 法进行处理是不合适的,应选用Logistic回归。Logistic回归属于概率型回归,用来分析某类事件发生的概率与 口变量之间的关系。适用于因变量为二值变量(或多分类)的情形。基本概念:因变量的预测值在01之间。如根据冠心病病人的饮 食特点、吸烟史、生活的

10、方式、得病的类型等数据资料,建立一个 logiStic回归方程来预测病人的冠心病的可能性。数学模型:y = lnp/(l- 吠式中:匕是在条件勺=(夠,切,也 )下,某事件发生的概率,1-厂是该事件不发生的概率。其中,,=1加,m是自变量 的个数。a是截距,S是待估计的参数。Logistic回归方程的曲线为S型,预测值最大值趋近1,最小值 趋近Oologistic回归方程的另一种表达形式:强叭通过变换 l + exp(y)J可以得出P与多元变量Xi间的数学表达式:p=l + exp(G +$Xj)-p = 5 exp(rz+ /?,%;)例如:1、某医生研究哪些指标可以判断糖尿病患者是否动脉硬

11、化,将临 床症状颈总动脉中层厚度imt 0. 8mm或有斑块定义为动脉硬化,记为 因变暈type =1,非硬化imt 尿白蛋白(ALB)、体重指数(BMI)、胰岛 素敏感指数(ISI)、收缩压(SBP)、甘油三脂(TG)、胆固醇(CH0)、 糖尿病病程(DURA)o2、某医院为研究医院内尿路感染的主要危险因素,回顾调查了某年三个月份在住院期间实施保留导尿的200名患者,分别记录了危险因素变量名定义性别X:女=0,男二1年龄(岁)X:30=0, 30、 =1, 50、二2, 70二3插管前住院时间(天)x33=0, 3 =1, 10、二2, 20、二3导尿方式X,闭式二0,开放式=1导尿期间无抗

12、生素持续冲洗x5否=0,是=1留置导尿时间x63=0, 3 =1, 10二2, 20、二3感染前有无输血史X;无=0,有=1感染前有无应用免疫抑制剂Xs无-0,用-1插管前血浆肌酊水平x980=0, 80、 =1, 170二2有无糖尿病XiO否二0,是=1尿路感染Y未感染二1,感染=0分析可能在医院内尿路感染的危险因素。4、比例风险模型一C0X回归常用统计描述和统计推断的方法有:分位数、中数生存期、平均数、 生存函数古迹、判断生存时间分布、非参数检验、寿命表法、log-rank 检验(对数秩检验)等。这些方法己经系统地应用在医学的医疗评价和 预后的因素分析中。医学临床生存资料有别于其他资料,特

13、别是医学临床随访资料很难 用一般统计方法来处理多种因素对生存时间序列的影响。资料的特点是:1、 危险度的变化规律种类多且难以确定。2、 资料中存在失访(截尾)数据。3、 同是考虑多个变量(连续的或离散的)影响难以控制。非参数可以解决前两个问题,参数法可以解决后两个问题。所以 实际应用中有很大的局限性。Logistic模型中对任一个观察对象的失 效处理都是相同的,无论失效发生在随访期的开始或结束,所以当分 析变量与失效的关系时且需要考虑失效时间的作用时,logistic回归 模型就不完全适用了。而任一变量对失效的作用完全独立于随访期的 长短,直接影响结论的可靠性和稳定性。1972年英国生物统计学

14、家D. R. Cox提出半参数的比例风险模型 Cox回归模型(Cox regression model ), 1975年由油料新的补充。Cox模型是将生存时间和因素间的关系用回归方式来表示,主要 解决多因素(如年龄、职业、吸烟、饮酒、病情、治疗方法等)对生 存期(恢复期)的影响。对于每一个研究的病人除去要考察的因素外, 必须有生存时间变量(t)和结局变量(d)。风险函数为:= (f)cxp(勺X +b2x2 +b3x3+-+bpxp) 为风险函数,又称风险率或瞬间死亡率。九为基准风险函 数,是与时间有关的任意函数。例如:1、某省肿瘤医院调查1991-1994年间经手术治疗的66例 大肠癌患者的

15、资料,对可能影响大肠癌术后的临床病理因素进行分析, 以探讨这些因素病理因素对大肠癌术后的综合影响。危险因素变量名定义性别Zt女二0,男二1年龄(岁)Z?40=1, 40、59 二2, 60二3组织学分类z3乳头状腺癌=0,管状腺癌二1肿瘤大小(cm)l6二0,其它二1Dure s分期z5A二 1, B=2, 03, D 二4细胞增殖抗原(PCNA)Z655% =0, 55%=1淋巴管侵润z;无=0,有=1血管侵润Zs无二0,用二1手术到观察结束Y实际天数结束时是否死亡D生存二0,死亡二12、研究天花粉注射治疗绒癌疗效的试验,将16只体表接种成功的 裸鼠分为4组,其中一组作为对照,其余三组分别注

16、射天花粉、甲药和 乙药,得到如下数据:试作Cox分析。危险因素变量名定义带瘤天数天数瘤体大小X:天花粉治疗x3无二0,有二1甲药治疗X.无二0,有=1乙药治疗x5无二0,有二1维生素民不用二0,用=1生存天数day实际天数结局D生存=0,死亡=1附例题:文件名“sars建立永久数据集libname 1 d: ;data a;set 1.sars3;run;读出数据集,选择确诊和发烧病人data a;set al;if group= 2 the delete;run;逐步判别分析:proc stepdisc method二stepwise sle=0.05 sls=0.05;class grou

17、p;var cpnb entb hlnl2 h5nlb infab infbb infb2bmpnb pivlb piv3b rsvnab rsvnbb sarslb sarslmtb sars2b sars3b; Quit;将逐步判别筛选出的变量作回代:proc discrim ;class group;var h5nlb entb infb2b sars2b sars3b mpnb sarslb;*var infb2b cpnb h5nlb piv3b rsvnbb sars3b;quit;计算疑似与发烧病人的逐步logistic回归:data b;set 1.sars3;if group

18、=l the delete;run;data bl;set b;if group=2 then groupn=l:if group=3 then groupn=0;proc logistic descending;model groupn= cpnb entb hlnl2 h5nlb infab infbb infb2bmpnb pivlb piv3b rsvnab rsvnbb sarslb sarslmtb sars2b sars3b/ selection=stepwise clodds=pl sle=0.15 sls=0.15;,*model groupn= cpnb entb hlnl

19、2 h5nlb infab infbb infb2bmpnb pivlb piv3b rsvnab rsvnbbsarslb sarslmtb sars2b sars3b;*model groupn= cpnb entb hlnl2 h5nlb infab infbb infb2bmpnb pivlb piv3b rsvnab rsvnbb / selection=stepwise clodds=plsle=0. 15 sls=0. 15;*/quit;计算确诊和发烧病人的logistics回归分析:data c;set 1.sars3;if group=3 then delete;run;d

20、ata bl;set c;if group=l then groupn=l:if group=2 then groupn=0;proc logistic descending;model groupn= cpnb entb hlnl2 h5nlb infab infbb infb2bmpnb pivlb piv3b rsvnab rsvnbb sarslb sarslmtb sars2b sars3b/ selection=stepwise clodds=pl sle=0.15 sls=0.15;*model groupn= cpnb entb hlnl2 h5nlb infab infbb

21、infb2bmpnb pivlb piv3b rsvnab rsvnbb sarslb sarslmtb sars2b sars3b;*model groupn= cpnb entb hlnl2 h5nlb infab infbb infb2b mpnb pivlb piv3b rsvnab rsvnbb / selection=stepwise clodds=pl sle=0. 15 sls=0. 15;quit; *,1BACKGROUND274.5140. 514SAMPLE疑似2961. 0783241961. 39501825SAMPLE2疑似2961. 0783242091. 48

22、754436SAMPLE3疑似2060.7504551951. 387947SAMPLE4疑似2300.837887223.51. 59074758SAMPLES疑似240.50.876138245. 51. 74733169SAMPLE6疑似2510. 914391781. 266904710SAMPLE7疑似224.50.817851369.52.629893811SAMPLE8确诊3901.4207652511. 786477912SAMPLE9确诊219.50.7996363642. 5907471013SAMPLE10确诊2280.8306012932. 085409Logistic

23、s (B类与C类病人拟和)Classification TableVariables in the EquationBS. EWaldSig.Exp (BStep INFB21 -3.6 .58539. 835.000 025PredictiObservedTYPE%01StepTYPE0454052.912210682.8Overall Percentagi70.9StepTYPE0493657.612310582.0Overall Percentagi72.3StepTYPE0523361.212210682.8Overall Percentagi74.2StepTYPE0582768.2

24、11910985.2Overall Percentagi78.4a The cut value is 500Constai4.4166E44.8591.00085. 73StepINFBE-T259. 0561.003.461INFB21-3.7.6038. 5551.000.024Constai5. 8(.84(47. 7841.000331.5:StepINFBE-1.13013. 9981.000316INFB2)-4.0 6340. 9961.000.017PIV1E2. 5( 69?13. 9381.00013. 31Constai3. 2:1.049. 6861.00225. 50

25、StepINFBE-1.2 32】14.8691.000290INFB2)-456942. 0311.000.011PIV1E2. 9(.73-16. 3301.00019. 31RSVNA12. 31.71(10.8121.00110. 54Constai.971.24.61214342. 64(aVariable(s)entered onstep 1:INFB2BbVariable(s)entered onstep 2:INFBB.cVariable(s)entered onstep 3:PIV1BdVariable(s)entered onstep 4:RSVNAB.Logistics

26、(疑似与发烧病人拟和)包括SARS病毒Classification TablePrediciTYPE Percentage CorrecObserved01StepTYPE0301173.2178892.6Overall Percentage86.8StepTYPE036587.8139296.8Overall Percentage94. 1StepTYPE038392.7129397.9Overall Percentage96.3StepTYPE037490.2149195.8Overall Percentage94. 1StepTYPE038392.7139296.8Overall Per

27、centage95.6StepTYPE040197.6119498.9Overall Percentage98.5a The cut valueis 500Variables in the EquationBS. E.WaldSig.Exp(B)StepINFB2)-8.8101.52933. 179.000.000Constai10.4491.74635. 812.00034524.09StepH5N1E8. 7922. 24115. 387.0006582. 40(INFB2)-12.3192. 36027. 254.000000Constai6. 1682. 1048. 596.003477. 220StepH5N1E8. 1212.41511.307.0013364. 19EINFB2)-13. 1392. 86321.065.000.000PIV3E5. 5582. 0557.312.007259. 262Constai1.7742. 559.4804885. 893StepH5N1E9. 6572. 92310.914.0011

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2