调整气象观测站问题论文Word格式.doc
《调整气象观测站问题论文Word格式.doc》由会员分享,可在线阅读,更多相关《调整气象观测站问题论文Word格式.doc(14页珍藏版)》请在冰点文库上搜索。
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
调整气象观测站问题
摘要
某市为了节省开支,想要适当减少气象观测站,使得既可以节省开支,又可以使得该市年降水量的信息损失最小。
我们根据30年来各观测站测得的年降水量数据,通过统计分析,得到最优结果。
问题一中,为了验证7、8号观测站只见是否具有相关关系,我们建立线性回归模型,然后用最小二乘法来估计回归系数、的值,求得7、8号观测站的线性回归方程,最后根据讨论结果得到7号观测站可以减少且其年降水量信息可以从8号观测站测到的数据中获取。
问题二中,我们用模糊聚类分析求解,对所有数据建立原始数据矩阵,并对它进行标准化处理,运用夹角余弦法求出相似系数得到相似矩阵,然后运用传递闭包法求得结果,最后在matlab上进行求解。
问题三中,在问题一、二的基础上我们选出在理论上可以减少的观测站,分别求出减少该观测站并用其他观测站的数据代替该观测站的数据,计算出在减少前后该市每年的年降水量的差值,然后建立正态分布模型运用matlab得出预测误差的绝对值小于10mm和大于20mm的概率。
关键字:
最小二乘法模糊聚类分析夹角余弦法正态分布F检验法
一、问题重述
某市有10个县,每个县有一个气象观测站(位置如图),每个气象观测站测得的年降水量即为该县的年降水量。
30年来各观测站测得的年降水量如下表。
为了节省开支,想要适当减少气象观测站,问题是减少哪些观测站既可以节省开支,又可以使得该市年降水量的信息量损失较小。
1.有人认为第7个观测站和第8个观测站观测到的数据之间有相关关系,第7个观测站可以减少,第7个观测站的年降水量信息可以从第8个观测站观测到的数据中获取,试讨论之。
2.还有哪些观测站可以减少,减少的观测站的年降水量信息如何获取。
3.如果以10个县年降水量的平均值为该市年平均降水量。
在减少观测站以前,每个县年降水量都是观测数据。
在减少观测站以后,被减少的观测站的年降水量只能从其它观测站观测到的数据中获取。
减少观测站以前和减少观测站以后是用两种不同测量计算方法得到该市年平均降水量。
两种不同测量计算方法得到的该结果会有误差,试预测误差的绝对值小于10mm的概率是多少?
误差的绝对值大于20mm的概率是多少?
二、模型假设
1、该市的气候特征较稳定,不出现较大的自然灾害,30年的统计数据能够全面地反映该市的气候特征;
2、该市的气候不会因环境的变化而发生较大的变化;
3、不考虑其他地区对该地区的影响;
三、符号说明
——回归函数——回归变量,
——回归系数——回归系数
——第i年的随机测量误差 ——偏离真实直线的偏差平方和
——总离差平方和——残差平方和
——和的相似系数U——回归平方和
——第i处的降雨量——第j年的降雨量
——经过平移标准差变换后的值
——经过平移极差变换后的值
——的估计值——的估计值
——横坐标的平均值——纵坐标的平均值
——总体平均数——总体标准差
——残差的方差——剩余标准差
——第m年n号观测站的年降水量数据
四、模型的假设与求解
4.1问题一
对于问题一,我们验证7、8号观测站是否具有相关关系,于是我们建立线性回归模型进行验证,若7号观测站30年测得的数据与8号观测站测得的数据具有相关关系,则说明7号观测站的数据可以由8号观测站取代。
我们建立模型如下:
y=+x+
E=0,D=
其中,固定的未知参数、为回归系数,自变量x为回归变量。
现在我们对一式的两边同时取期望得到y对x的回归直线方程:
y=+x
然后用最小二乘法来估计回归系数、的值。
在我问题所给的数据中,我们得到30组独立观测值,使得它们满足上式的关系,即:
y=+x+
E=0,D=
其中,、…相互独立。
记===;
为偏离真实直线的偏差平方和,而在本文中最小二乘法就是选择、的估计、,使得:
=
然后对将上式分别对、求偏导数,即:
=-2
=-2
令上式为零,得到一个关于、、、的表达式。
用、取代、,即:
=0
于是有:
解得:
将化简得:
其中:
;
求导得回归方程为:
将数据代入,根据matlab运行结果(见下图)得到第9和19组数据属于奇异数据,应当剔除,于是我们得到线性回归方程为:
y=61.4777+1.0233*x
在该回归方程中,是拟合直线的斜率,是拟合直线在x=处的截距,30个点(,)得几何重心(,)总在拟合直线上,对于每组(,)可以求出拟合值,以及残差-。
刚才我们求出来了线性回归方程,这只是我们对该数据做出的粗略判断,但实际上这些数据是否具有线性关系或者是显著的线性关系,则需要我们接下来的检验。
现在我们将采用F检验法对我们所求的回归方程进行检验。
我们知道对于y=+x+当越大y随x的变化越明显;
反之,当越小,y随x的变化越不明显,特别的,当=0时,则认为y与x之间不存在线性关系。
当0时认为具有线性关系,因此,问题转化为对假设:
=0进行线性验证。
假设=0被拒绝,则认为y与x存在线性关系,该方程有意义。
令
=+U;
其中,为总离差平方和,为残差平方和,U=(-)
Q与U是相互独立的,再由F的分布的定义知,当成立时有
F=~F(1,n-2)
代入数据,
此时F>
F(1,n-2),
根据F检验法知,当F>
F(1,n-2)时,应当拒绝,所以,原回归方程是合法的,即7、8号观测站之间具有相关关系,说明可以减少第7号观测站,其信息由8号观测站获取。
4.2问题二
(2)对于第二问,我们采用模糊聚类分析求解。
首先我们建立一个原始数据矩阵:
…
..….
其中,n=10,m=30,
然后,我们对这些数据进行标准化处理。
(1)平移—标准差变换:
其中是第j个指标的平均值,
(2)平移—极差变换:
其中1≤k≤m,i=1…m,j=1…n
(3)确立相似矩阵R:
与的相似关系和=此时R=()
利用夹角余弦法求相似系数
此时,它的相似矩阵R=()
接下来我们要求的是R的传递闭包tR.RR=R,RR=R,…当RR=R时,则有tR=R.根据闭包tR计算分类水平lamda,再利用MATLAB求出不同水平下的分类方案,并求出最合理的分类方案。
MATLAB程序如见附录。
根据matlab运行结果可以把分为四类:
{x2,x3}、{x6,x7}、{x6,x8}、{x7,x8}
然后我们运用方差,求得各个观测站的方差:
观测站
10
4
2
3
9
方差
5808.356
6245.262
8472.249
9448.107
12636.52
1
8
6
7
5
14274.06
14737.42
16135.4
16972.52
19338.6
根据上表可知,为了使该市的年降水量的信息损失最小,减少3、6、7号观测站,再用2号观测站的数据代替3号观测站的数据,用8号观测站的数据代替6、7号观测站的数据
4.3问题三
根据问题二的求解结果可以得到减少观测站前、后该市年降水量的理论差值,即误差,然后我们根据这些差值建立正态分布模型:
、分别表示总体平均数和标准差。
根据所建立的模型,运用问题二所得结论,在excel上求出所得数据,通过减少前和减少后的数据的比较作差,然后求其正态分布再在matlab上运行可得到误差的绝对值小于10mm和大于20mm的概率,它们分别为0.0677和0.5636。
程序及图见附录。
五、模型评价及推广
5.1模型评价
1、本文中我们建立线性回归模型,并用最小二乘法求解,在问题三中使用正态分布模型使得所得结果更有说服力,更加准确。
2、在问题二中,我们运用模糊聚类分析法,在求解中请我们运用夹角余弦法、传递闭包法,使得最后结果满足既节省开支,又可以使得该市年降水量的信息损失最小。
3、我们在模型假设时,没有考虑地理空间距离差异对气候的影响,所得结果与实际的测量值会有一定的差值。
4、本题所用模型的求解步骤较多,过程较复杂。
5.2模型推广
1、对所得结果用曲线图表示出来,使得结果更直观。
2、本题所建模型可以运用到城市规划、资源开发等方面。
3、在求解第二问时,我们减少了6、7号观测站,而用第8号观测站的数据代替6、7号观测站的数据,但我们从年降水量曲线图可知,7号观测站的年降水量处于6号和8号观测站的年降水量之间,我们可以考虑减少7号观测站,其数据用6号和8号观测站的平均代替,这样测的数据可能会更接近准确值。
我们在本题中选择了偏向减少开支的解法。
六、参考文献
【1】赵静但琦数学建模与数学试验高等教育出版社2000年第4版
【2】郭大伟数学建模安徽教育出版社2009年第1版
【3】邵学才沈彤英邓米克将强荣离散数学清华大学出版社2006年7月
七、附录
7.1.1问题一散点图分析
x=[328536536456552344568568600504576360312680536576720304624312692680544408456288408392328632];
y=[232448496432448312504472440416576256296584456544624248472272576616496320368176360376320544];
plot(x,y,'
*'
)xlabel('
第8站测得的年降水量/mm'
)ylabel('
第7站测得的年降水量/mm'
)
7.1.2问题一偏差分析
x=[232448496432448312504472440416576256296584456544624248472272576616496320368176360376320544]'
;
X=[ones(30,1)x];
Y=[328536536456552344568568600504576360312680536576720304624312692680544408456288408392328632]'
[b,bint,r,rint,stats]=regress(Y,X);
b,bint,statsrcoplot(r,rint)
7.2问题二程序:
clear,clc
A=[600 488 616 688 648 648 728 592 688 520 664 616 608 752 560 624 648 912 768 456 912 728 1000 656 624 768 824 688 744 624;
464 384 520 440 336 184 624 440 464 384 408 512 424 504 552 384 432 496 416 320 552 440 352 368 480 304 552 584 416 520;
584 520 616 520 496 312 728 528 624 376 424 552 464 584 632 496 496 592 496 472 616 480 448 480 600 384 672 680 480 680;
448 416 488 352 496 512 432 624 472 456 392 280 328 488 360 488 400 392 408 432 504 272 496 448 304 448 472 584 472 424;
648 432 544 880 552 880 576 728 424 640 544 720 536 472 832 472 736 440 720 616 600 848 776 720 496 560 472 432 504 672;
176 432 504 376 448 384 480 624 544 432 552 272 344 648 464 552 752 256 188 320 544 576 568 440 352 232 424 416 432 536;
328 536 536 456 552 344 568 568 600 504 576 360 312 680 536 576 720 304 624 312 688 680 544 408 456 288 408 392 328 632;
232 448 496 432 448 312 504 472 440 416 576 256 296 584 456 544 624 248 472 272 576 616 496 320 368 176 360 376 320 544;
488 512 432 552 456 664 640 464 336 592 688 576 552 704 656 480 344 536 432 648 744 720 664 608 504 680 512 568 576 336;
544 448 592 440 544 440 424 440 368 432 496 528 336 480 464 672 504 416 408 560 512 440 432 392 560 480 576 440 368 584];
[mn]=size(A);
B=biaozh(A);
R=qiumhjz(B,10);
tR=qiubb(R);
lamda=qiusp(tR);
forp=1:
length(lamda)
M(:
:
p)=tR>
=lamda(p);
Disp(``)%在命令窗口显示空行,方便阅读计算结果.
Cl=qiucl(M(:
p));
cnum=0;
fori=1:
m
if~isempty(cl{i})
cnum=cnum+1;
end
end
disp([`分为`,num2str(cnum),`类:
`]);
G{1}=`x1`;
G{2}=`x2`;
G{3}=`x3`;
G{4}=`x4`;
G{5}=`x5`;
G{6}=`x6`;
G{7}=`x7`;
G{8}=`x8`;
G{9}=`x9`;
G{10}=`x10`;
for~i=1:
if~isempty(cl{i})
iflength(cl{i})==1
G{cl{i}}(end)=[];
disp([`”`,G{cl{i}},`”`,`自成一类]);
`
else
g=[];
fort=1:
length(cl{i})
g=[gG{cl{i}(t)}];
end
g(end)=[];
disp([`”`,g,`”`,`归为一类`]);
end
end
end
F(p)=qiuF(M(:
p),A);
%计算在水平lamda(p)下相应的F统计量的值.
end
disp(``)
[v,ind]=max(F);
%最大的统计量值F所对应的分类方案就是最合理的.
Disp([`在所有分类方案中分为`num2str(ind)`类是最合理的`]
7.3问题三程序及图例:
图:
正态分布图
z=normpdf(10,21.2,7.5)
z=
0.0174
>
z=-normpdf(20,21.2,7.5)
-0.0525
z=normpdf(20,21.2,7.5)
0.0525
z=normpdf(0,21.2,7.5)
9.7911e-004
z=normpdf(1000,21.2,7.5)
0
z=normpdf(1,0,1)-normpdf(-1,0,1)
p=normcdf
(1)
p=
0.8413
p=normcdf(10)
1
p=normcdf(1,0,1)-normcdf(-1,0,1)
0.6827
p=normcdf(10,21.2,7.5)
0.0677
p=-normcdf(-1,0,1)
-0.1587
p=normcdf(-1)
0.1587
p=normcdf(21.2,21.2,7.5)
0.5000
p=normcdf(20,21.2,7.5)
0.4364
p=1-normcdf(20,21.2,7.5)
0.5636