ImageVerifierCode 换一换
格式:DOCX , 页数:21 ,大小:230.24KB ,
资源ID:1888594      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-1888594.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据分析与统计软件的课程设计.docx)为本站会员(b****1)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

数据分析与统计软件的课程设计.docx

1、数据分析与统计软件的课程设计数据分析与统计软件 课程设计报告设计题目 关于低体重初婴的回归分析 设计时间 姓名 学号 班级 成绩 指导老师 关于出生体重偏低婴儿的回归分析【摘要】在医学界,婴儿的出身体重存在着一个最低的标准,而低于这一标准的婴儿被称为低体重初婴。低体重初婴相比于正常婴儿来说,无论是死亡率还是先天缺陷率都远远地高出。婴儿的出身体重偏低是一个长期困扰着医学界的问题。经过长期的研究发现:孕妇在怀孕期间的一些行为,包括饮食,吸烟习惯,和接受产前护理的情况等,和低体重初婴的出现机率有着很大的联系,所以我们可以通过指引孕妇怀孕期间的生活行为,来避免婴儿出身体重偏低的问题。本文根据回归分析的

2、原理,分析多个潜在危险因子与出生体重偏低婴儿的出现之间的内在联系,构建预测模型,利用文献资料和低出生体重数据有效地拟合和预测低体重初婴的出现可能性。一、问题提出:婴儿的出身体重偏低是长期困扰着医学界的重大问题之一,多年来,婴儿出生体重偏低问题刺痛了许多温馨的家庭,让人们的心中蒙上了一层恐惧的黑影。经过多年的研究观察,我们发现孕妇在怀孕期间的一些行为和低体重初婴的出现机率具有很强的同步性,由此可见在这一类潜在危险因子与低体重初婴的出现之间必然存在着密切的联系,我们将尝试通过对已有文献的数据进行分析总结,挖掘出它们之间确切的数学关系。二、统计方法原理说明:(1)多元线性回归模型原理说明:设x1,x

3、2,xp是p个可以精确测量或可控制的变量。如果变量y与x1,x2,,xp之间的内在联系是线性的,那么进行n次试验,则可得n组数据:(yi,xi1,xi2,xip),i=1,2,n 它们之间的关系可表示为: y1=b0+b1x11+b2x12+bpx1p+1 y2=b0+b1x21+b2x22+bpx2p+2 yn=b0+b1xn1+b2xn2+bpxnp+n 其中,b0,b1,b2,bp是p+l个待估参数,i表示第i次试验中的随机因素对yi的影响。为简便起见,将此n个方程表示成矩阵形式: Y=XB+ 其中 Y=(y1,y2,yn) B=(b0,b1,bp) =(1,2,n) 上式便是p元线性回

4、归的数学模型。而参数估计的方法是使用最小二乘估计。(2)Logistic回归模型的原理说明:拟合logistic回归采用最大似然估计法。检验模型或参数的显著性使用卡方统计量进行检验。利用logit变换可将属性变量取某个值的概率p的logit变换表示为自变量的线性函数,即logit(P)=0+1X1+2X2+mXm或等价于p=exp(0+1X1+2X2+mXm)1+exp(0+1X1+2X2+mXm),logit(p)=p1-p。三、数据分析1、设置指标经过研究选取了以下9个因子;AGE 为孕妇的年龄;LWT 为孕妇最后一次月经时的体重;RACE 为种族(1=白种人,2=黑种人,3=其他);SM

5、OKE为怀孕期间吸烟状况;PTL 为早产史;HT 为高血压病史;UI 为子宫过敏的情况;FTV 为怀孕前三个月接受产前护理的情况;LOW 为低出生体重情况。 其中,因子:RACE种族:“1”为白种人,“2”为黑种人,“3”为其他;SMOKE怀孕期间吸烟状况:“0”为没有,“1”为有;PTL早产史: “0”为没有,“1”为有1次,以此类推;HT高血压病史:“0”为没有,“1”为有;UI子宫过敏的情况:“0”为没有,“1”为有;FTV怀孕前三个月接受产前护理的情况:“0”为没有,“1”为 1次,“2”为2次,以此类推;LOW低出生体重情况:“0”为不存在(出身体重= 2500g),“1”为存在(出

6、身体重 2500g)2、数据样本与数据来源低出生体重数据:表1现运用SAS软件对上述数据进行回归分析。源程序:data rk;input LOW AGE LWT RACE SMOKE PTL HT UI FTV;cards;0 45 123 1 0 0 0 0 10 24 116 1 0 0 0 0 10 19 120 1 1 0 0 0 00 35 170 1 0 1 0 0 10 31 120 1 0 0 0 0 20 25 130 1 0 0 0 0 20 22 129 1 0 0 0 0 00 26 160 3 0 0 0 0 00 21 115 1 0 0 0 0 10 16 95

7、3 0 0 0 0 10 20 158 1 0 0 0 0 10 25 120 1 0 0 0 0 20 28 130 3 0 0 0 0 00 28 134 3 0 0 0 0 10 14 135 1 0 0 0 0 00 20 170 1 1 0 0 0 00 33 117 1 0 0 0 1 10 18 120 3 0 0 0 0 10 29 130 1 1 0 0 0 20 16 170 2 0 0 0 0 40 32 186 1 0 0 0 0 20 18 120 1 1 0 0 0 20 22 169 1 0 0 0 0 00 30 112 1 0 0 0 0 10 25 241

8、2 0 0 1 0 00 24 110 3 0 1 0 0 00 23 110 1 0 0 0 0 10 20 120 3 0 0 0 0 00 19 184 1 1 0 1 0 00 24 110 1 0 0 0 0 10 30 137 1 0 0 0 0 10 29 135 1 0 0 0 0 10 29 154 1 0 0 0 0 10 19 147 1 1 0 0 0 00 19 147 1 1 0 0 0 00 16 135 1 1 0 0 0 00 25 95 1 1 3 0 1 00 21 134 3 0 0 0 0 20 19 235 1 1 0 1 0 00 22 125 1

9、 0 0 0 0 10 24 133 1 0 0 0 0 00 36 175 1 0 0 0 0 00 23 130 1 0 0 0 0 00 17 120 3 1 0 0 0 00 19 105 3 0 0 0 0 00 23 123 3 0 0 0 0 00 20 127 3 0 0 0 0 00 30 110 3 0 0 0 0 00 32 170 1 0 0 0 0 00 22 131 1 0 0 0 0 10 23 190 1 0 0 0 0 00 20 121 2 1 0 0 0 00 32 134 1 1 1 0 0 40 25 140 1 0 0 0 0 10 18 229 2

10、 0 0 0 0 00 16 112 2 0 0 0 0 00 16 135 1 1 0 0 0 00 23 115 3 1 0 0 0 10 31 150 3 1 0 0 0 20 20 141 1 0 2 0 1 10 22 158 2 0 1 0 0 20 22 112 1 1 2 0 0 00 28 250 3 1 0 0 0 60 20 169 3 0 1 0 1 10 24 115 3 0 0 0 0 20 26 133 3 1 2 0 0 00 28 140 1 0 0 0 0 00 23 119 3 0 0 0 0 20 24 110 3 0 0 0 0 00 17 119 3

11、 0 0 0 0 00 17 119 3 0 0 0 0 00 21 110 3 1 0 0 1 00 30 153 3 0 0 0 0 00 20 103 3 0 0 0 0 00 19 115 3 0 0 0 0 00 16 110 3 0 0 0 0 00 30 95 1 1 0 0 0 20 22 130 1 1 0 0 0 00 23 128 3 0 0 0 0 00 22 120 1 0 0 1 0 10 19 132 3 0 0 0 0 00 24 115 1 0 0 0 0 20 22 85 3 1 0 0 0 00 32 132 1 0 0 0 0 40 18 90 1 1

12、0 0 1 00 18 90 1 1 0 0 1 00 19 189 1 0 0 0 0 20 23 130 2 0 0 0 0 10 21 160 1 0 0 0 0 00 21 185 2 1 0 0 0 20 33 109 1 1 0 0 0 10 31 215 1 1 0 0 0 20 27 124 1 1 0 0 0 00 25 155 1 0 0 0 0 10 25 125 2 0 0 0 0 00 29 140 1 1 0 0 0 20 19 138 1 1 0 0 0 20 24 90 1 1 1 0 0 10 35 121 2 1 1 0 0 10 29 150 1 0 0

13、0 0 20 26 168 2 1 0 0 0 00 17 113 2 0 0 0 0 10 17 113 2 0 0 0 0 10 17 122 1 1 0 0 0 00 25 120 3 0 0 0 1 20 28 167 1 0 0 0 0 00 28 120 3 0 0 0 0 00 36 202 1 0 0 0 0 10 32 121 3 0 0 0 0 20 31 100 1 0 0 0 1 30 28 120 1 1 0 0 0 10 20 120 3 0 0 0 1 00 25 118 1 1 0 0 0 30 15 98 2 0 0 0 0 00 18 100 1 1 0 0

14、 0 00 18 100 1 1 0 0 0 00 22 95 3 0 0 1 0 00 30 107 3 0 1 0 1 20 19 150 3 0 0 0 0 10 19 95 3 0 0 0 0 00 26 113 1 1 0 0 0 00 29 123 1 1 0 0 0 10 22 118 1 0 0 0 0 10 17 103 3 0 0 0 0 10 21 124 3 0 0 0 0 00 18 107 1 1 0 0 1 00 21 108 1 1 0 0 1 20 20 105 1 1 0 0 0 10 33 155 3 0 0 0 0 30 19 182 2 0 0 0 1

15、 01 14 100 3 0 0 0 0 21 23 94 3 1 0 0 0 01 17 142 2 0 0 1 0 01 21 130 1 1 0 1 0 31 26 190 1 1 0 0 0 01 14 101 3 1 1 0 0 01 28 95 1 1 0 0 0 21 20 105 3 0 0 0 0 31 26 154 3 0 1 1 0 11 17 120 2 0 0 0 0 21 23 110 1 1 1 0 0 01 17 120 1 1 0 0 0 31 30 142 1 1 1 0 0 01 22 130 1 1 0 0 0 11 23 120 3 0 0 0 0 0

16、1 20 122 2 1 0 0 0 01 24 105 2 1 0 0 0 01 15 115 3 0 0 0 1 01 23 187 2 1 0 0 0 11 31 102 1 1 1 0 0 11 15 110 1 0 0 0 0 01 26 96 3 0 0 0 0 01 21 100 3 0 1 0 0 41 18 110 2 1 1 0 0 01 20 121 1 1 1 0 1 01 18 148 3 0 0 0 0 01 25 105 3 0 1 0 0 11 20 109 3 0 0 0 0 01 17 110 1 1 0 0 0 01 20 80 3 1 0 0 1 01

17、22 130 1 1 1 0 1 11 27 130 2 0 0 0 1 01 20 120 2 1 0 0 0 31 17 130 3 1 1 0 1 01 24 138 1 0 0 0 0 01 19 112 1 1 0 0 1 01 26 117 1 1 1 0 0 01 19 102 1 0 0 0 0 21 20 125 3 0 0 0 1 01 25 89 3 0 2 0 0 11 21 103 3 0 0 0 0 01 24 155 1 1 1 0 0 01 25 92 1 1 0 0 0 01 20 150 1 1 0 0 0 21 21 200 2 0 0 0 1 21 16

18、 130 3 0 0 0 0 11 25 115 3 0 0 0 0 01 19 91 1 1 2 0 1 01 32 105 1 1 0 0 0 01 21 165 1 1 0 1 0 11 24 132 3 0 0 1 0 01 24 128 2 0 1 0 0 11 27 150 3 0 0 0 0 01 23 97 3 0 0 0 1 11 25 85 3 0 0 0 1 01 25 105 3 0 1 1 0 01 34 187 2 1 0 1 0 01 29 130 1 0 0 0 1 21 28 120 3 1 1 0 1 0;proc print;run;proc corr p

19、earson;var LOW AGE LWT RACE SMOKE PTL HT UI FTV;run;proc reg;model LOW=AGE LWT RACE SMOKE PTL HT UI FTV;model LOW=AGE LWT RACE SMOKE PTL HT UI FTV/selection=adjrsq cp aic;model LOW=AGE LWT RACE SMOKE PTL HT UI FTV/selection=stepwise vif;output out=out r=residual;run;data out1;set out;set rk;z=abs(re

20、sidual);run;proc print data=out1 ;run;proc corr data=out1 out=out2; var AGE LWT RACE SMOKE PTL HT UI FTV z;run;proc capability data=out1;ppplot residual;symbol c=red i=none v=star;run;proc logistic data=rk;model LOW=AGE LWT RACE SMOKE PTL HT UI FTV/selection=stepwise;run;四、输出结果以及相关分析:1.录入数据:2. 简单统计量

21、和Pearson相关系数:由相关系数我们可以认为,各个危险因子都与低出生体重情况具有较强的相关关系,所以尝试使用简单多元线性回归模型进行拟合。3.随机误差项的异方差检验:由异方差检验结果,我们可以选择使用FTV来构造权函数,进行加权最小二乘来估计参数系数,来减小随机误差项的异方差影响。所以采用加权最小二乘法弱化异方差影响后的回归方程为:y=0.685-0.02*AGE-0.002*LWT+0.053*RACE+0.159*SMOKE+0.184*PTL+0.479*HT+0.111*UI+0.038*FTV4.参数估计及模型检验:拟合模型为:LOW=0.42702-0.00529*AGE-0.

22、00211*LWT+0.07743*RACE+0.16296*SMOKE+0.11712*PTL+0.37013*HT+0.15424*UI+0.00703*FTV,在=0.1的情况下,只有参数RACE、SMOKE、HT显著,而其他参数估计都不显著,但方差分析中p0.0002,说明自变量从整体上对LOW具有显著的影响,所以我们对自变量进行选择,剔除不显著变量,优化回归方程。5.变量选择:(1)最优子集法:有最优子集法的输出结果我们可以看出,当自变量取LWT、RACE、SMOKE、PTL、HT和UI时AIC最小,所以方程最优,所以方程应该保留LWT、RACE、SMOKE、PTL、HT和UI这6个

23、自变量。(2)逐步回归法:最终输出结果:根据逐步回归法的结果,选择LWT、RACE、SMOKE、PTL、HT和UI作为自变量时,所得到的拟合模型以及相关的模型显著性检验:所以结合最优子集法和逐步回归法的结果,我们可以认为自变量取LWT、RACE、SMOKE、PTL、HT和UI时,所得到的回归方程:LOW=0.31427-0.00223*LWT+0.08228*RACE+0.16906*SMOKE+0.10943*PTL+0.37316*HT+0.15882UI最优,并且vif均较小,我们可以认为各变量之间不具有多重共线性。6.逻辑回归因为因变量LOW为二分类变量,所以采用最简单的logisti

24、c回归模型进行配合,采用逐步筛选法筛选变量:(1)数据的基本分析:由上图知:总共有189个样本,其中LOW=0的130个,LOW=1的有59个。(2)参数估计:逐步筛选法过程:筛选法最终结果:所以,模型参数估计结果为:由上图知:逐步回归法最终筛选出了三个有意义的变量LWT、PTL和HT,其P值均小于0.05,所以最终回归方程为:(3)模型检验:由上图知:模型的总检验,Likelihood Ratio的P值=0.0003,Score的P=0.0004,Wald的P值=0.0016,均小于0.05,故模型总体有意义。模型参数的95%的置信区间为:五、结论总结:由普通多元线性回归分析和逻辑回归分析,得到了多个可能危险因子与低出生体重情况的函数关系为:LOW=0.31427-0.00223*LWT+0.08228*RACE+0.16906*SMOKE+0.10943*PTL+0.37316*HT+0.15882UIt检验和方差分析检验结果确定回归方程显著有效,拟合效果良好,并且消除了异方差,所以我们可以认为,上述回归方程可以可靠地体现,各个危险因子与低出生体重情况之间的内在联系。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2