全国大学生数学建模竞赛论文格式规范.docx

上传人:b****2 文档编号:17916629 上传时间:2023-08-04 格式:DOCX 页数:42 大小:530.52KB
下载 相关 举报
全国大学生数学建模竞赛论文格式规范.docx_第1页
第1页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第2页
第2页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第3页
第3页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第4页
第4页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第5页
第5页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第6页
第6页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第7页
第7页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第8页
第8页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第9页
第9页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第10页
第10页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第11页
第11页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第12页
第12页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第13页
第13页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第14页
第14页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第15页
第15页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第16页
第16页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第17页
第17页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第18页
第18页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第19页
第19页 / 共42页
全国大学生数学建模竞赛论文格式规范.docx_第20页
第20页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

全国大学生数学建模竞赛论文格式规范.docx

《全国大学生数学建模竞赛论文格式规范.docx》由会员分享,可在线阅读,更多相关《全国大学生数学建模竞赛论文格式规范.docx(42页珍藏版)》请在冰点文库上搜索。

全国大学生数学建模竞赛论文格式规范.docx

全国大学生数学建模竞赛论文格式规范

2012高教社杯全国大学生数学建模竞赛

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。

如有违反竞赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写):

C

我们的参赛报名号为(如果赛区设置报名号的话):

所属学校(请填写完整的全名):

(隐去论文作者相关信息等)

 

日期:

2012年9月10日

 

赛区评阅编号(由赛区组委会评阅前进行编号):

2012高教社杯全国大学生数学建模竞赛

编号专用页

 

赛区评阅编号(由赛区组委会评阅前进行编号):

 

赛区评阅记录(可供赛区评阅时使用):

 

 

全国统一编号(由赛区组委会送交全国前编号):

 

全国评阅编号(由全国组委会评阅前进行编号):

 

脑卒中发病环境因素分析及干预

摘要:

脑卒中逐渐威胁人们的生活,本文主要针对脑卒中发病病例信息和受病环境因素进行统计分析,从实际数据结果加深对脑卒中的认识,旨在对脑卒中加以预防。

针对问题一,先主要借助于EXCEL编程及筛选功能、MATLAB辅助编程对附件数据进行错误修复及标准化处理,得到2007~2010年期间有效数据的发病年、月、日,然后在EXCEL中分别按性别、年龄、职业、时间(包括年、月、日)四个字段对发病人数进行统计,并以图、表的形式予以展示,最后总结出脑卒中患者男女性别比为1.17:

1、集中患病年龄段为71~80岁、高危职业为农民、存在一定季节性等结论,该问属于一般的数据统计分析模型。

针对问题二,先对患者按照天来统计四年每天的发病人数(共1461条数据),再将气象数据与发病人数按天进行关联构成新的源数据,同时计算每天的气压差、温差,最后以发病率为因变量,以平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度10个特征为自变量进行多元线性回归,其步骤是先画因变量与自变量的散点图观测它们的关系,再利用SPSS软件统计所有变量之间的相关性,最后进行多元逐步回归分析。

结果表明:

①发病率与这10个指标的相关性并不大,但整体上与最低气压、最高温度和温差呈正相关、与平均湿度和气压差成负相关;②发病率与平均湿度直接线性相关,逐步回归的模型为

,且模型检验为F=7.555、Sig.=0.006,表明该模型通过显著性检验;③再次以平均湿度为因变量,以气压和温度为自变量进行逐步回归发现,平均湿度受温差、平均气压影响,这间接地对脑卒中发病率产生影响。

针对问题三,通过查阅资料文献得到脑卒中高危人群的重要特征和关键指标、主要诱发因素,并结合问题一和问题二中的相关结论对脑卒中高危人群进行了预警和干预建议。

最后,本文对模型进行了检验及评价分析,用2007~2010年的发病数据进行回代检验,两者绝对距离小于1的比例为86%。

同时,本文的分析可以推广应用到其它疾病、农作物收成等受环境、气候影响的分析及预警评估中。

关键词:

脑卒中,环境因素,统计分析,多元线性回归,逐步回归,显著性检验,预警,回代检验

一、

问题重述

随着社会的发展,人们生活水平不断提高,但与此同时,伴随着城市化进程加快,人口密度加大,生活节奏加快和膳食结构改变等不良现象,一些严重威胁人们身体健康的疾病发生,心脑血管疾病以其高死亡率而越来越引起人们的关注。

其中脑卒中(俗称脑中风,包括脑出血、蛛网膜下腔出血和脑梗塞,脑出血和蛛网膜下腔出血均属心脑血管疾病)是目前威胁人类生命的严重疾病之一,目前对脑卒中尚无特效治疗方法或令人满意的治疗效果,因此积极预防尤为重要。

随着人们对预防疾病和保证健康生活方式的重视,气候变化对人类健康的影响也倍受关注,国内外许多研究表明气象要素的变化对心脑血管疾病有着重要影响。

因此研究气象要素与心脑血管疾病之间的关系对于防病和治病具有重要的现实意义。

脑卒中的发生是一个漫长的过程,一旦得病就很难逆转。

对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。

同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。

数据(见Appendix-C1)来源于中国某城市各家医院2007年1月至2010年12月的脑卒中发病病例信息以及相应期间当地的逐日气象资料(Appendix-C2)。

请建立数学模型,解决如下问题:

问题一:

根据病人基本信息,对发病人群进行统计描述。

问题二:

建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。

问题三:

查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合问题一、问题二中所得结论,对高危人群提出预警和干预的建议方案。

二、问题分析

本文主要目标是要分析脑卒中受发病环境因素的影响关系以及对应的预防措施,其总体研究方法是通过对现有数据进行统计规律分析,找出脑卒中的发病率与环境因素(温度、湿度、大气压)的关系描述,并通过查询资料文献了解脑卒中高危人群的重要特征及常见的预防脑卒中的预防措施,最后再结合第一问和第二问分析的结果对高危人群提出预警和干预的建议方案,旨在提高对脑卒中的防护能力。

鉴于此目的,针对本文具体3个问题,可以进行如下分析:

2.1针对问题一的分析

本问题主要根据附件(Appendix-C1)中四个文件中的脑卒中发病病例信息进行相关统计分析,这些病例信息指标主要有性别、年龄、职业、发病时间、诊断时间,为了对发病人群进行统计描述,本文主要从以下几点进行考虑:

1.按性别统计,包括总人数、主要集中年龄段、高危职业名称、发病与诊断时间的间隔(判断该病的潜伏性);

2.按年龄段统计,包括该年龄段内的性别、人数、比例、高危职业、发病与诊断时间的间隔;

3.按职业统计,包括该职业内的发病人的性别、集中年龄段、发病与诊断时间的间隔;

4.分别按发病年、月统计(发病年月和诊断年月基本一致),包括性别、年龄段、高危职业等。

但是从附件数据中发现,在“Timeofincidence(发病时间)”和“Reporttime(诊断报告时间)”中存在不同的时间格式以及错误(如:

####或空格),因此在对数据进行统计分析前,需要首先对数据进行修复,根据一定修复原则将一些明显的错误信息(如发病时间为5008/7/31、诊断报告时间为27/09/2008情况下,很明显5008应该是2008)。

同时,从附件数据中易发现,部分诊断时间没有数据,而且诊断时间比较混乱,错误比较多,因此本文将不对诊断报告时间进行分析,进而也将不统计发病与诊断时间的间隔。

最后在修复完成后的基础上按上述思想进行脑卒中的发病信息统计,其统计的工具主要是EXCEL,利用EXCEL丰富的公式编辑、筛选、绘图、统计等功能进行处理。

2.2针对问题二的分析

本问题欲研究脑卒中发病率与气温、气压、相对湿度间的关系,主要需要注意以下几点:

1.在第一问已修复的数据基础上进行发病率统计,主要统计方法是通过EXCEL的筛选功能和编写程序统计出在2007~2010年期间每一天的发病人数,进而可以计算出按天及按月的发病率;

2.对附件(Appendix-C2)中数据文件进行整理及统计计算,先按天统计2007~2010年期间每一天的气象信息(温度、湿度、大气压),并计算出每一天的温度差、气压差,再按月分别统计这四年中的8种指标(平均气压、最高气压、最低气压、平均温度、最高温度、最低温度、平均湿度、最低湿度)每月的各个平均值、最大值、最小值;

3.将1和2统计或计算的数据进行一一关联,构造后续分析的数组。

从上面的统计数据可以看出,该问是一个多元统计问题[1],即分析脑卒中发病率与温度、湿度、大气压的各种指标的关系,主要分析思想如下:

1.先整体按天(2007~2012年共1461天)分析,分析过程为:

①在EXCEL中画出发病率与各个统计指标的散点图,从直观上寻求发病率与它们是否有明显的规律(如线性相关);②利用SPSS统计软件对所有数据进行相关性分析,分析两两之间的相关性;③利用SPSS软件进行多元线性回归,分析回归结果是否通过显著性检验;④由于某些变量之间存在非常大的互相关(如温度之间的三个指标互相关系数都比较大),因此需要对多个变量进行筛选,可用的方法为多元线性逐步回归法(可以借助于SPSS统计软件中的逐步回归选项或MATLAB中的stepwise逐步回归工具箱);⑤如果不存在前面操作没有求出发病率与温度、湿度、大气压的相关表达式,则继续按后续方法进行分析处理;

2.然后按照每月或季节的数据进行类似分析;

3.按照温度、湿度、大气压三类进行单因素相关性分析,先选择其中两个特征变化很小或在一个指定范围内变化的数据,对发病率与第三个指标进行相关性分析,通过此方法进行单因素分析。

整个过程需要做大量的统计分析,包括绘图及数据归纳整理,主要工具有EXCEL、SPSS、MATLAB。

2.3针对问题三的分析

本问题首先要通过资料文献了解脑卒中高危人群的重要特征和关键指标、脑卒中的主要诱发因素、常见的预防措施、已有的某些地区对脑卒中发病的统计信息和规律,根据这些信息最大化地提取关于脑卒中发病的指标,再结合问题一、问题二中所得结论,可以根据所查到的关键指标、气象信息、时间序列进行预测模型的建立,如多指标影响因素的多元线性或非线性回归、神经网络预测模型、时间序列预测等等,最后对高危人群提出预警和干预的建议方案。

三、模型假设及符号说明

3.1基本假设

1.假设附件中的数据除空格、R###等本身有误外其它数据是合理可靠的。

2.假设附件数据中每一位病人都属于不同的人。

3.假设除环境因素(温度、湿度、大气压)外,影响脑卒中发病的其他因素保持不变。

4.假设当地人口不发生较大的变动,死亡率与出生率相近。

5.假设2007~2010数据四年间,没有发生重大自然灾害。

6.假设当地医疗环境相当,数据代表整个城市数据,数据具有代表性。

3.2符号说明

某天(月或其它统计范围)的年发病率

某天(月或其它统计范围)的发病人数

某年的总发病人数

:

自变数个数

因变数

自变数

各个自变数

对依变数

的各自效应;

自效应的集合

3.3基本定义

发病率:

(1)

四、模型建立及求解

4.1针对问题一的模型建立及求解

由问题分析可知,这属于多信息变量的统计描述模型,该问题主要是对脑卒中发病者信息进行统计描述,其方法是分别对脑卒中患者病历信息——性别、年龄、职业、发病时间进行统计,全部操作在EXCEL中进行。

4.1.1附件数据的修复处理

由于附件中的患者病例信息有许多格式错误及信息不完整,在进行统计描述前,有必要对数据做修复处理,本文的修复过程及方法如下:

1.年龄(Age)字段中存在大于110岁(如799)、0岁的信息,本文处理方法为将区间[1110]之间的数据作为有效值,其余的全视为该患者年龄信息缺失。

2.职业(Occupation)字段中存在1-8之外的数据(如9、工等异常),可能是数据录入错误,也可能是还有其它类的职业没在附件中说明,本文处理方法为将1-8之外的数据视为其他职业段。

3.发病时间(Timeofincidence)字段存在日期格式错误(如15-06-2008、20080620等)或与EXCEL标准时间格式(如2007/1/1)不统一,需要对时间数据进行修复及标准化处理,处理原则有以下几点:

①类似“2009-0-24”的数据丢失了月份信息,此类数据认为是错误数据,不统计在2007~2010期间内;

②类似“发病时间为5008/7/31、诊断报告时间为27/09/2008”存在明显错误的数据,5008应该修复成2008;

③类似“31/12/2009”的数据不是EXCEL标准的时间格式,为了便于在EXCEL中快速按年、月、日进行统计分析,有必要对非标准的日期数据进行标准化处理,其方法可以通过在一单元格中进行编写公式进行字符串处理,假设“31/12/2009”所在的单元格为“D2”,则计算标准化的日期格式(2009/12/31)的公式为“=DATE(RIGHT(D2,4),MID(D2,4,2),LEFT(D2,2))”;

④类似“发病时间为20110/05/09、诊断报告时间为2010-08-08”的数据,直接视为无效数据;

⑤类似“2009/0/24”的数据也视为无效数据。

4.1.2脑卒中患者信息统计分析

通过上述数据修复过程后,将得到标准格式的脑卒中患者信息数据,现按照模型分析的思路对脑卒中病例信息进行统计描述,其核心方法是在EXCEL中利用“COUNTIF”函数对某条件进行筛选后统计患者人数、及“COUNTIFS”函数对多重条件进行筛选后统计患者人数,具体操作界面截图见附录B-1。

4.1.2.1按性别统计

对男女性别分别进行筛选,以年为单位,将四年的数据信息进行统计,2007~2010年按性别的脑卒中发病人数统计如表1所示,2007~2010年男女患病人数统计图如图1所示。

表12007~2010年按性别的脑卒中发病人数统计表

性别

年统计人数

附件总数据

2007-2010年总

2007

2008

2009

2010

33385

33367

7302

10384

5198

10483

28526

28506

5940

8659

4805

9102

丢失信息

12

12

0

12

0

0

男女比

1.17:

1

1.17:

1

1.23:

1

1.20:

1

1.08:

1

1.15:

1

图12007~2010年男女患病人数统计图

从表1及图1可以看出,2007年男女患者之比达1.23:

1,男性比女性更容易患脑卒中这类疾病,可能原因有以下几点:

一是男性高血压多于女性;二是男性吸烟与饮酒者多于女性;三是男性从事体力劳动较多,突然用力可能诱发中风。

4.1.2.2按职业统计

按职业字段进行筛选得到2007~2010年各职业患病人数统计数据如表2所示。

表22007~2010年各职业患病人数统计表

2007~2010年按职业统计数据

职业

发病人数

性别

编号

名称

1

农民

29750

14644

15084

2

工人

4856

3108

1745

3

退休人员

6646

4126

2517

4

教师

216

163

53

5

渔民

66

43

23

6

医务人员

90

65

25

7

职工

735

513

220

8

离退人员

1751

1181

570

其它或缺失

其它或缺失

17775

9524

8268

从表中看出农民患病人数为29750,属于较多人群,为高危职业,而医务人员等明显较低,这与工作强度相关。

图22007~2010年各职业患病人数统计图

可以得出结论:

经济收入较高的人群较收入低的人群脑卒中发病率低,户外重体力劳动者发病率较高。

4.1.2.3按年龄统计

针对职业统计中,退休人员所占比例较大说明与年龄有关,对年龄进行筛选,将年龄分为各个阶段,统计出每年中不同年龄段的患病人数,以2007-2008年为例进行如表3所示的描述,各年详细数据见附录A-1。

表32007-2008年各年龄段内患病人数统计表

2007

2008

患病人数

患病人数

1--10

17

10

7

50

15

35

11--20

7

4

3

14

9

5

21--30

35

16

19

57

32

25

31--40

155

96

59

235

173

62

41--50

614

374

240

865

566

298

51--60

1861

1135

726

2547

1514

1033

61--70

3069

1784

1285

4669

2803

1864

71--80

4842

2678

2164

6648

3496

3147

81--90

2309

1051

1258

3549

1609

1936

91--100

170

57

113

249

82

167

101--110

3

3

0

4

2

2

其他

126

76

50

25

12

13

图32007~2010年各年龄阶段的患病人数图

由图3可见,患病人数随年龄的增加而增加,上升速度以50到60上升较快,61岁以上的人群脑卒中的高发群体,集中年龄段在71-80岁之间,说明脑卒中以老年人居多,且脑卒中患者呈年轻化的趋势。

进一步按照各年龄段,对男女患者发病人数的进行区分,可得图4所示。

图42007~2010四年期间各年龄阶段男女患病人数图

可见,男女高峰年龄段一致;男性在41~71岁之间,患病人数明显高于女性;71岁以后患病明显回落,且低于女性发病人数,可知男性发病早于女性,同时这现象可能是由于高龄组死亡率持续增高所致。

但无论男女,构成随着年龄增加而增加,这与其在年龄发病相符。

4.1.2.4按时间统计

按年份对发病人数进行统计,得到发病人数统计图如图5所示。

图5脑卒中患者按年的统计人数分布

从上图可以看出,附件总数据为61923条,但2007~2010间有效的数据为61885条,本文做的统计描述均是针对2007~2010期间内。

按月份对发病人数进行统计,得到发病人数统计表如表4所示。

表42007~2010年各月患病人数统计表

月份

07年发病人数

08年发病人数

09年发病人数

10年发病人数

2007-2010年总发病人数

1

935

1827

872

1760

5394

2

732

1961

848

1487

5028

3

1019

1918

830_1724

5491

4

1069

1758

860

1699

5386

5

1072

1776

876

1882

5606

6

1032

1517

793

1610

4952

7

1014

1500

931

1757

5202

8

1197

1366

934

1680

5177

9

1221

1272

829

1632

4954

10

1374

1461

759

1718

5312

11

1208

1378

664

1565

4815

12

1369

1321

807

1071

4568

图62007-2010年总发病人数随月份的变化曲线

从2007~2010年逐年脑卒中发病人数的月分布发现,该病以春节多发,高峰出现在3~5月,1月为次高峰,6~9月发病较为平缓,12月出现低谷期。

由此可见发病存在一定的季节差异,脑卒中春季高于其他季节,而夏、秋、冬三季发病差异不大。

利用EXCEL中的“COUNTIFS”函数对脑卒中病例数据进行多重筛选统计患者数量,得到2007~2010四年每天的发病人数,其曲线如图7所示。

图72007-2010年总发病人数随天的变化曲线

根据式

(1)求出2007~2010四年内每天的发病率,其发病率随时间的变化曲线如图8所示。

图82007-2010年发病率随天的变化曲线

从图7和图8可以看出,2007~2010四年内每天发病人数变化不大,每天的发病率基本保持不变。

但是如果按天进行统计分析,每天的随机误差容易对结果造成影响,再每月的均值作为统计对象进行分析,四年内每月的发病率百分比曲线如图9所示。

图92007-2010年发病率随月的变化曲线

从图9可以看出,月发病率随时间呈周期性波动,具有一定的季节性。

4.1.2.5重要结论

(1)脑卒中的发病有年集中趋势,更呈增长趋势;

(2)发病存在时间差异,春节为高发季,1月为高峰月;

(3)患者人数男性多于女性,性别比重为1.17:

1;

(4)工作性质对脑卒中发病有直接影响,农民为高危职业;

(5)脑卒中发病处于老年阶段,集中年龄段为71~80,且逐年呈年轻化发展。

4.2针对问题二的模型建立及求解

由问题分析可知,问题二属于一个多元统计分析模型,目标是研究因变量发病率与自变量温度(包括平均温度、最高温度、最低温度、温度差)、湿度(包括平均湿度、最低湿度)、气压(平均气压、最高气压、最低气压、气压差)之间的关系,本文主要从多元线性或非线性回归模型上进行分析。

4.2.1数据归纳与统计

附件(Appendix-C2)中的数据已经给出了2007-2010年每天对应的气象数据,可以在这基础上对气象数据进行进一步细化:

(1)计算每天的气压差与温差,最终得到2007~2010年期间每一天的气象特征信息——平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度等10个特征变量;

(2)按月份统计所有数据中每月的最大值及最小值情况。

最后将第一问进行统计出的发病率情况与气象数据信息进行一一关联,得到最终待分析的数据集,其数据形式如表5所示。

表5数据归纳统计形式

按天统计

时间

发病人数

发病率

发病率千分比

平均气压

最高气压

最低气压

平均温度

最高温度

最低温度

平均湿度

最低湿度

气压差

温度差

2007/1/1

98

0.007401

7.40069476

1025.1

1028.5

1023.3

8.1

9.9

7.4

86

71

5.2

2.5

2007/1/2

32

0.002417

2.41655339

1025.2

1026.7

1023.5

6.5

7.4

6

84

73

3.2

1.4

2007/1/3

33

0.002492

2.49207068

1026.1

1027.8

1025.1

5

6.9

4.2

86

77

2.7

2.7

2007/1/4

36

0.002719

2.71862256

1027.1

1029.2

1025.7

5.9

7.4

4.2

82

78

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2