全国大学生数学建模竞赛b题.docx
《全国大学生数学建模竞赛b题.docx》由会员分享,可在线阅读,更多相关《全国大学生数学建模竞赛b题.docx(6页珍藏版)》请在冰点文库上搜索。
![全国大学生数学建模竞赛b题.docx](https://file1.bingdoc.com/fileroot1/2023-7/14/0f248afc-e8c9-44df-8254-d234562c95e4/0f248afc-e8c9-44df-8254-d234562c95e41.gif)
全国大学生数学建模竞赛b题
2006年全国大学生数学建模竞赛B题
全国大学生数学建模竞赛2006年B题艾滋病疗法的评价及疗效的预测
艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。
艾滋病的医学全名为“获得性免疫缺损综合症”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”,英文简称HIV)引起的。
这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。
人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。
艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。
迄今为止人类还没有找到能根治AIDS的疗法,目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。
许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。
现在得到了美国艾滋病医疗试验机构ACTG公布的两组数据。
ACTG320(见附件1)是同时服用zid.,lam.,ind.3种药物的300多名病人每隔几周测试的CD4和HIV的浓度(每毫升血液里的数量)。
193A(见附件2)是将1300多名病人随机地分为4组,每组按下述4种疗法中的一种服药,大约每隔8周测试的CD4浓度(这组数据缺HIV浓度,它的测试成本很高)。
4种疗法的日用药分别为:
600mgzid.或400mgdid.,这两种药按月轮换使用;600mgzid.加2.25mgzal.;600mgzid.加400mgdid.;600mgzid.加400mgdid.,再加400mgnev.。
请你完成以下问题:
(1)利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。
(2)利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。
(3)艾滋病药品的主要供给商对不发达国家提供的药品价格如下:
600mgzid.1.60美元,400mgdid.0.85美元,2.25mgzal.1.85美元,400mgnev.1.20美元。
如果病人需要考虑4种疗法的费用,对
(2)中的评价和预测(或者提前终止)有什么改变。
附件1ACTG320数据同时服用3种药物的300多名病人每隔几周测试的CD4和HIV的浓度。
第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.2个/ml),第4列是测试HIV的时刻(周),第5列是测得的HIV(单位不详)。
PtIDCD4DateCD4CountRNADateVLoad23424017805.523424422843.923424812684.723424251712542342440994052342501405.32342546242.423425911093.72342523122232.62342540320
附件2193A数据1300多名病人按照4种疗法服药大约每隔8周测试的CD4浓度。
第1列是病人编号,第2列是4种疗法的代码:
第3列是病人年龄,第4列是测试CD4的时刻(周),第5列是测得的CD4,取值log(CD4+1).ID疗法年龄时间Log(CD4count+1)1236.427103.13551236.42717.57143.04451236.427115.57142.77261236.427123.57142.83321236.427132.57143.21891236.4271403.04452447.846703.06812447.846783.89182447.8467163.97032447.8467233.61092447.846730.71433.33222447.8467393.0910
问题
(1)利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间。
分析数据700600如随机取20个病人,画出他们CD4和HIV浓度随时间变化的图形(折线),6.56CD45004003002001005.554.543.532.52HIV001020304050601.501020304050CD4大致有先增后减的趋势,HIV有先减后增的趋势,启示应建立时间的二次函数模型若先用一次模型,应与二次模型做统计分析比较
建立模型有以下形式的回归模型(一次与二次模型比较,二次较优):
1)总体回归模型用全部数据拟合一个模型,如yij=b0+b1tij+b2tij2,tij,yij分别为第i病人第j次测量的时间和CD4(或HIV),估计b0,b1,b2对CD4,b2<0,b1>0,t=-b1/2b2达到最大对HIV,b2>0,b1<0,t=-b1/2b2达到最小平均地应在25~30(周)结束治疗。
2)个人回归模型用每个病人的数据拟合一个模型,如yij=b0i+b1itij+b2itij2,计算b0i,b1i,b2i的均值和均方差,用均值可得CD4的最大点和HIV的最小点。
可对CD4统计b2i<0,b1i>0(存在正最大点)及b2i>0(不存在最大点)的频率,分别作为及时结束治疗与继续治疗的概率;也可用它们的均值和均方差在确定分布下计算这些概率。
3)纵向数据回归模型将模型yij=b0i+b1itij+b2itij2的系数分解:
bki=bk+?
ik(k=0,1,2),设?
ik服从零均值正态分布,利用极大似然估计可以得到bk的估计值及?
ik的方差。
bk的估计值用于计算CD4的最大点和HIV的最小点,它与?
ik的方差一起可以在正态分布假定下计算及时结束治疗与继续治疗的概率。
建立模型如果考虑病人初始状态(t=0时的CD4和HIV)的不同对模型的影响,可以将模型中的yij定义为第i病人第j次测量的CD4(或HIV)与初始值之差或之比。
或者先按照病人初始状态分类(如轻度、中度、重度),然后对于每一类建立回归模型。
问题
(2)利用附件2的数据,评价4种疗法的优劣,并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。
分析数据对于每种疗法随机取20个病人,画出他们CD4随时间变化的图形(折线),可以看出疗法1~3的CD4基本上水平,略有下降,而疗法4有先增后减的趋势。
启示应建立时间的一次与二次函数模型,经统计分析比较,确定哪种较优。
建立模型1)回归模型可以引入4(或3)个0-1变量表示4种疗法建立统一模型,或者对每种疗法各建立一个模型(一般来说前者较优)。
以总体回归模型为例,只需增加年龄变量,分别用一次与二次时间函数模型进行比较,可知疗法1~3用一次模型较优,且一次项系数为负,即CD4在减少,从数值看疗法3优于疗法2和1;疗法4用二次模型较优,即CD4先增后减,
2)假设检验做疗法有无显著性差异的两两比较:
用1个0-1变量构造两种疗法的统一模型,可以用t检验作回归系数是否为零的假设检验。
结果是疗法1与2无显著性差异,而疗法1与3,2与3,3与4均有显著性差异。
3)方差分析疗法是必选的因素,如果还考虑年龄和初始状态,用双因素分析则比较复杂,可以先按这些因素分类,再做疗法的单因素分析。
论文中出现问题的评析1.只做数据拟合,不做统计检验。
最小二乘拟合:
已知一组数据(xk,yk),k=1,2,…,n和一个形式已定、参数?
待定的模型(曲线)y=f(x,?
),确定参数?
使数据与模型在误差平方和最小的意义下拟合得最好。
有现成的计算公式和软件确定参数?
用回归分析方法做统计检验:
得到的模型有无显著意义,它的置信度多大,用它作预测时准确程度如何。
简xy例01.0411.2221.38最小二乘拟合31.5941.8051.9962.2172.3982.6592.83z0.28y0.612.192.562.491.17z3.171.292.113.27xxy=a1x+b1=0.2013x+1.0040z=a2x+b2=0.2025x+1.0025两个模型的结果一样,但是可靠性和准确性一样吗?
需要做统计检验!
决定系数R2y=a1x0.9985+b1z=a2x0.3528+b2F值52944.361p值剩余方a的置信区间差?
2[0.1950,0.2077][-0.0211,0.4262]b的置信区间[0.9699,1.0381][-0.1915,2.1966]<0.00010.00060.07020.7761?
R2=0.3528~在z的变化中只有35%是由x决定的?
p值大于0.05~在常用的置信度?
=5%下该模型没有显著意义?
a2的置信区间包含零点~a=0落在置信水平为95%的区间内若x=5.5预测值y=2.1113,z=2.1165z的预测没有什么价值!
预测区间y:
[2.0621,2.1606],z:
[0.3899,3.8432],
2.对原始数据先取平均,再用平均值做拟合数据中大多数病人的测试时间是0,4,8,…(周),个别病人是5,7,…(周),为了得到CD4(或HIV)的变化趋势,先在每个时间点上对CD4取平均,再用平均值做拟合.这样做有什么问题呢?
注意:
有的时间点上有上百个病人的CD4,而有的时间点上只有几个病人的CD4。
简例数据(x,y):
x=0,y=0:
0.05:
2;x=1,y=1:
0.05:
3;x=2,y=0,2,在图上共84个点。
32.521.510.50-0.5对数据(x,y)拟合一条直线,得y=0.7647x+1.0784先在x=0,1,2对y取平均得到3个点,再拟合直线,得y=1.3333取平均后的3个点在做拟合时的权重相同;但是x=0,1的点都是41个数据的平均值,而x=3的点只是2个数据的平均值00.511.522.5332.521.510.50-0.500.511.522.53
3.拟合过度用4次、5次甚至更高次数的多项式作拟合?
数据的起伏是由与时间本身无关的其它随机因素引起的,不应该用增加时间的高次项来拟合?
注意拟合与插值在应用场合的差别?
适用本题的显然是拟合而非插值一般地说,多项式拟合不要超过3次,对于本题如果用统计检验做显著性分析,可以发现多数情况是以时间的2次多项式为好
4.只按照图形做直观的定性判断,不做定量分析为了比较4种疗法的优劣,对每种疗法的CD4(或取平均)做散点图,或折线(散点连线)图,直观地比较疗法的优劣?
没有普遍的指导意义,对于其它问题或数据,这样做不一定能得到结果?
一种疗法的CD4散点图(或折线图)在另一种疗法的上面,从统计意义上并不能表明其显著性作为数学建模题目应该给出定量的处理方法!
5.双指标处理不当对于CD4和HIV两个指标的处理,常用的方法是用某种函数形式将二者结合在一起.由于CD4越大越好,HIV越小越好,一些同学取二者之差或二者之商为综合指标.这样简单处理的问题在于,这两个指标量纲不同,数量级差别较大.恰当的办法是,先分别将其归一化(如将数值变换到0-1之间),然后取加权平均.
6.对其它建模方法的评价微分方程层次分析时间序列灰色系统预测模糊评价神经网络