数据分析与统计软件的课程设计.docx

上传人:b****1 文档编号:1888594 上传时间:2023-05-02 格式:DOCX 页数:21 大小:230.24KB
下载 相关 举报
数据分析与统计软件的课程设计.docx_第1页
第1页 / 共21页
数据分析与统计软件的课程设计.docx_第2页
第2页 / 共21页
数据分析与统计软件的课程设计.docx_第3页
第3页 / 共21页
数据分析与统计软件的课程设计.docx_第4页
第4页 / 共21页
数据分析与统计软件的课程设计.docx_第5页
第5页 / 共21页
数据分析与统计软件的课程设计.docx_第6页
第6页 / 共21页
数据分析与统计软件的课程设计.docx_第7页
第7页 / 共21页
数据分析与统计软件的课程设计.docx_第8页
第8页 / 共21页
数据分析与统计软件的课程设计.docx_第9页
第9页 / 共21页
数据分析与统计软件的课程设计.docx_第10页
第10页 / 共21页
数据分析与统计软件的课程设计.docx_第11页
第11页 / 共21页
数据分析与统计软件的课程设计.docx_第12页
第12页 / 共21页
数据分析与统计软件的课程设计.docx_第13页
第13页 / 共21页
数据分析与统计软件的课程设计.docx_第14页
第14页 / 共21页
数据分析与统计软件的课程设计.docx_第15页
第15页 / 共21页
数据分析与统计软件的课程设计.docx_第16页
第16页 / 共21页
数据分析与统计软件的课程设计.docx_第17页
第17页 / 共21页
数据分析与统计软件的课程设计.docx_第18页
第18页 / 共21页
数据分析与统计软件的课程设计.docx_第19页
第19页 / 共21页
数据分析与统计软件的课程设计.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

数据分析与统计软件的课程设计.docx

《数据分析与统计软件的课程设计.docx》由会员分享,可在线阅读,更多相关《数据分析与统计软件的课程设计.docx(21页珍藏版)》请在冰点文库上搜索。

数据分析与统计软件的课程设计.docx

数据分析与统计软件的课程设计

《数据分析与统计软件》

课程设计报告

设计题目关于低体重初婴的回归分析

设计时间

姓名

学号

班级

成绩

指导老师

 

关于出生体重偏低婴儿的回归分析

【摘要】在医学界,婴儿的出身体重存在着一个最低的标准,而低于这一标准的婴儿被称为低体重初婴。

低体重初婴相比于正常婴儿来说,无论是死亡率还是先天缺陷率都远远地高出。

婴儿的出身体重偏低是一个长期困扰着医学界的问题。

经过长期的研究发现:

孕妇在怀孕期间的一些行为,包括饮食,吸烟习惯,和接受产前护理的情况等,和低体重初婴的出现机率有着很大的联系,所以我们可以通过指引孕妇怀孕期间的生活行为,来避免婴儿出身体重偏低的问题。

本文根据回归分析的原理,分析多个潜在危险因子与出生体重偏低婴儿的出现之间的内在联系,构建预测模型,利用文献资料和低出生体重数据有效地拟合和预测低体重初婴的出现可能性。

一、问题提出:

婴儿的出身体重偏低是长期困扰着医学界的重大问题之一,多年来,婴儿出生体重偏低问题刺痛了许多温馨的家庭,让人们的心中蒙上了一层恐惧的黑影。

经过多年的研究观察,我们发现孕妇在怀孕期间的一些行为和低体重初婴的出现机率具有很强的同步性,由此可见在这一类潜在危险因子与低体重初婴的出现之间必然存在着密切的联系,我们将尝试通过对已有文献的数据进行分析总结,挖掘出它们之间确切的数学关系。

二、统计方法原理说明:

(1)多元线性回归模型原理说明:

设x1,x2,…,xp是p个可以精确测量或可控制的变量。

如果变量y与x1,x2,…,xp之间的内在联系是线性的,那么进行n次试验,则可得n组数据:

(yi,xi1,xi2,…,xip),i=1,2,…,n

  它们之间的关系可表示为:

  y1=b0+b1x11+b2x12+…+bpx1p+ε1

  y2=b0+b1x21+b2x22+…+bpx2p+ε2

  ………………

  yn=b0+b1xn1+b2xn2+…+bpxnp+εn

  其中,b0,b1,b2,…,bp是p+l个待估参数,εi表示第i次试验中的随机因素对yi的影响。

为简便起见,将此n个方程表示成矩阵形式:

  Y=XB+ε

  其中

  Y=(y1,y2,…,yn)'

  B=(b0,b1,…,bp)'

  ε=(ε1,ε2,…,εn)'

上式便是p元线性回归的数学模型。

而参数估计的方法是使用最小二乘估计。

(2)Logistic回归模型的原理说明:

拟合logistic回归采用最大似然估计法。

检验模型或参数的显著性使用卡方统计量进行检验。

利用logit变换可将属性变量取某个值的概率p的logit变换表示为自变量的线性函数,即logit(P)=β0+β1X1+β2X2+…+βmXm或等价于p=exp⁡(β0+β1X1+β2X2+…+βmXm)1+exp⁡(β0+β1X1+β2X2+…+βmXm)

 ,logit(p)=p1-p

 。

三、数据分析

1、设置指标

经过研究选取了以下9个因子;

AGE为孕妇的年龄;

LWT为孕妇最后一次月经时的体重;

RACE为种族(1=白种人,2=黑种人,3=其他);

SMOKE为怀孕期间吸烟状况;

PTL为早产史;

HT为高血压病史;

UI为子宫过敏的情况;

FTV为怀孕前三个月接受产前护理的情况;

LOW为低出生体重情况。

其中,因子:

RACE种族:

“1”为白种人,“2”为黑种人,“3”为其他;

SMOKE怀孕期间吸烟状况:

“0”为没有,“1”为有;

PTL早产史:

“0”为没有,“1”为有1次,以此类推;

HT高血压病史:

“0”为没有,“1”为有;

UI子宫过敏的情况:

“0”为没有,“1”为有;

FTV怀孕前三个月接受产前护理的情况:

“0”为没有,“1”为1次,“2”为2次,以此类推;

LOW低出生体重情况:

“0”为不存在(出身体重>=2500g),“1”为存在(出身体重<2500g)

2、数据样本与数据来源

低出生体重数据:

……

表1

现运用SAS软件对上述数据进行回归分析。

源程序:

datark;

inputLOWAGELWTRACESMOKEPTLHTUIFTV;

cards;

045123100001

024116100001

019120110000

035170101001

031120100002

025130100002

022129100000

026160300000

021115100001

01695300001

020158100001

025120100002

028130300000

028134300001

014135100000

020170110000

033117100011

018120300001

029130110002

016170200004

032186100002

018120110002

022169100000

030112100001

025241200100

024110301000

023110100001

020120300000

019184110100

024110100001

030137100001

029135100001

029154100001

019147110000

019147110000

016135110000

02595113010

021134300002

019235110100

022125100001

024133100000

036175100000

023130100000

017120310000

019105300000

023123300000

020127300000

030110300000

032170100000

022131100001

023190100000

020121210000

032134111004

025140100001

018229200000

016112200000

016135110000

023115310001

031150310002

020141102011

022158201002

022112112000

028250310006

020169301011

024115300002

026133312000

028140100000

023119300002

024110300000

017119300000

017119300000

021110310010

030153300000

020103300000

019115300000

016110300000

03095110002

022130110000

023128300000

022120100101

019132300000

024115100002

02285310000

032132100004

01890110010

01890110010

019189100002

023130200001

021160100000

021185210002

033109110001

031215110002

027124110000

025155100001

025125200000

029140110002

019138110002

02490111001

035121211001

029150100002

026168210000

017113200001

017113200001

017122110000

025120300012

028167100000

028120300000

036202100001

032121300002

031100100013

028120110001

020120300010

025118110003

01598200000

018100110000

018100110000

02295300100

030107301012

019150300001

01995300000

026113110000

029123110001

022118100001

017103300001

021124300000

018107110010

021108110012

020105110001

033155300003

019182200010

114100300002

12394310000

117142200100

121130110103

126190110000

114101311000

12895110002

120105300003

126154301101

117120200002

123110111000

117120110003

130142111000

122130110001

123120300000

120122210000

124105210000

115115300010

123187210001

131102111001

115110100000

12696300000

121100301004

118110211000

120121111010

118148300000

125105301001

120109300000

117110110000

12080310010

122130111011

127130200010

120120210003

117130311010

124138100000

119112110010

126117111000

119102100002

120125300010

12589302001

121103300000

124155111000

12592110000

120150110002

121200200012

116130300001

125115300000

11991112010

132105110000

121165110101

124132300100

124128201001

127150300000

12397300011

12585300010

125105301100

134187210100

129130100012

128120311010

;

procprint;

run;

proccorrpearson;

varLOWAGELWTRACESMOKEPTLHTUIFTV;

run;

procreg;

modelLOW=AGELWTRACESMOKEPTLHTUIFTV;

modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=adjrsqcpaic;

modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=stepwisevif;

outputout=outr=residual;

run;

dataout1;

setout;

setrk;

z=abs(residual);

run;

procprintdata=out1;

run;

proccorrdata=out1out=out2;

varAGELWTRACESMOKEPTLHTUIFTVz;

run;

proccapabilitydata=out1;

ppplotresidual;

symbolc=redi=nonev=star;

run;

proclogisticdata=rk;

modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=stepwise;

run;

四、输出结果以及相关分析:

1.录入数据:

……

2.简单统计量和Pearson相关系数:

由相关系数我们可以认为,各个危险因子都与低出生体重情况具有较强的相关关系,所以尝试使用简单多元线性回归模型进行拟合。

3.随机误差项的异方差检验:

由异方差检验结果,我们可以选择使用FTV来构造权函数,进行加权最小二乘来估计参数系数,来减小随机误差项的异方差影响。

所以采用加权最小二乘法弱化异方差影响后的回归方程为:

y=0.685-0.02*AGE-0.002*LWT+0.053*RACE+0.159*SMOKE+0.184*PTL+0.479*HT+0.111*UI+0.038*FTV

4.参数估计及模型检验:

拟合模型为:

LOW=0.42702-0.00529*AGE-0.00211*LWT+0.07743*RACE+0.16296*SMOKE+0.11712*PTL+0.37013*HT+0.15424*UI+0.00703*FTV,在α=0.1的情况下,只有参数RACE、SMOKE、HT显著,而其他参数估计都不显著,但方差分析中p<0.0002,说明自变量从整体上对LOW具有显著的影响,所以我们对自变量进行选择,剔除不显著变量,优化回归方程。

5.变量选择:

(1)最优子集法:

有最优子集法的输出结果我们可以看出,当自变量取LWT、RACE、SMOKE、PTL、HT和UI时AIC最小,所以方程最优,所以方程应该保留LWT、RACE、SMOKE、PTL、HT和UI这6个自变量。

(2)逐步回归法:

最终输出结果:

根据逐步回归法的结果,选择LWT、RACE、SMOKE、PTL、HT和UI作为自变量时,所得到的拟合模型以及相关的模型显著性检验:

所以结合最优子集法和逐步回归法的结果,我们可以认为自变量取LWT、RACE、SMOKE、PTL、HT和UI时,所得到的回归方程:

LOW=0.31427-0.00223*LWT+0.08228*RACE+0.16906*SMOKE+0.10943*PTL+0.37316*HT+0.15882UI最优,并且vif均较小,我们可以认为各变量之间不具有多重共线性。

6.逻辑回归

因为因变量LOW为二分类变量,所以采用最简单的logistic回归模型进行配合,采用逐步筛选法筛选变量:

(1)数据的基本分析:

由上图知:

总共有189个样本,其中LOW=0的130个,LOW=1的有59个。

(2)参数估计:

逐步筛选法过程:

筛选法最终结果:

所以,模型参数估计结果为:

由上图知:

逐步回归法最终筛选出了三个有意义的变量LWT、PTL和HT,其P值均小于0.05,所以最终回归方程为:

(3)模型检验:

由上图知:

模型的总检验,LikelihoodRatio的P值=0.0003,Score的P=0.0004,Wald的P值=0.0016,均小于0.05,故模型总体有意义。

模型参数的95%的置信区间为:

五、结论总结:

由普通多元线性回归分析和逻辑回归分析,得到了多个可能危险因子与低出生体重情况的函数关系为:

LOW=0.31427-0.00223*LWT+0.08228*RACE+0.16906*SMOKE+0.10943*PTL+0.37316*HT+0.15882UI

t检验和方差分析检验结果确定回归方程显著有效,拟合效果良好,并且消除了异方差,所以我们可以认为,上述回归方程可以可靠地体现,各个危险因子与低出生体重情况之间的内在联系。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2