随机数学建模方法及其应用.docx
《随机数学建模方法及其应用.docx》由会员分享,可在线阅读,更多相关《随机数学建模方法及其应用.docx(25页珍藏版)》请在冰点文库上搜索。
随机数学建模方法及其应用
随机数学建模方法及其应用
学院:
数学与计算机科学学院班级:
2012级数学与应用数学班姓名:
马从从学号:
P1*******6
回归分析法概述
回归分析法是通过研究两个或两个以上变量之间的相关关系,运用数理统计方法从事物的抑制状况预测未来的一种信息研究定量方法。
优点:
首先它利用降维技术用少数几个综合变量来代替原始多个变量,综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
缺点:
是当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
案例分析
以某医院的病例调查为例,对多元线性回归的显着性判断进行说明。
某医院为了解病人对医院工作的满意程度、病人的年龄、病情的严重程度、病人的忧虑程度之间的关系随机调查该医院的10位病人,可得到如下表格。
年龄
病情程度
忧虑程度
满意度
50
51
2.3
48
36
46
2.3
57
40
48
2.2
66
41
44
1.8
70
28
43
1.8
89
49
54
2.9
36
42
50
2.2
46
45
48
2.4
54
52
62
2.9
26
29
50
2.1
77
步骤:
1、将数据导入spss
2、打开分析--回归---线性
3、依次打开界面的每个选项进行对应选择。
可得到以下结果。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.960a
.922
.883
6.528
a.预测变量:
(常量),忧虑程度,年龄,病情程度。
b.因变量:
满意度
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
3031.208
3
1010.403
23.710
.001a
残差
255.692
6
42.615
总计
3286.900
9
a.预测变量:
(常量),忧虑程度,年龄,病情程度。
b.因变量:
满意度
系数a
模型
非标准化系数
标准系数
B
标准误差
试用版
t
Sig.
1
(常量)
175.525
21.335
8.227
.000
年龄
-1.171
.389
-.509
-3.015
.024
病情程度
-.512
.799
-.146
-.641
.545
忧虑程度
-19.645
12.361
-.389
-1.589
.163
a.因变量:
满意度
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
25.92
85.36
56.90
18.352
10
残差
-11.526
5.108
.000
5.330
10
标准预测值
-1.688
1.551
.000
1.000
10
标准残差
-1.766
.782
.000
.816
10
a.因变量:
满意度
由上表可以得出:
聚类分析法概述
聚类分析法是将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似
优点:
聚类分析模型的优点就是直观,结论形式简明。
缺点:
在样本量较大时,要获得聚类结论有一定困难。
由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
案例分析
某教育研究所根据相关数据欲对北京18个区县中职教育发展进行聚类研究。
包括每万人的中职在校生数、每万人的中职招生数、每万人的中职毕业生数、每万人的中职专任教师数、专任教师中本科以上学历者占的比例等。
数据表格如下
东城
156
53
45
15
0.507
0.245
701
0.0109
5356
西城
119
42
31
13
0.502
0.331
552
0.0063
6449
崇文
202
72
57
16
0.566
0.193
633
0.0168
5357
宜武
176
57
31
17
0.63
0.234
584
0.0155
6432
朝阳
221
77
45
17
0.499
0.254
553
0.0228
6625
海淀
169
64
42
13
0.573
0.183
573
0.0048
5840
丰台
166
66
48
15
0.444
0.142
465
0.0112
5532
石景山
192
61
52
19
0.524
0.085
535
0.0158
5695
门头湾
127
53
33
30
0.143
0.026
376
0.0057
3904
房山
115
38
25
10
0.571
0.127
618
0.0061
7020
昌平
232
80
66
19
0.531
0.106
491
0.0072
5089
顺义
67
35
17
5
0.341
0.079
403
0.0006
3056
通县
98
40
25
7
0.533
0.107
474
0.0031
5559
大兴
205
76
67
16
0.597
0.129
616
0.0107
4990
平谷
81
39
21
7
0.192
0.03
533
0.0007
2518
怀柔
121
52
27
12
0.223
0.076
637
0.0023
4149
密云
84
41
22
6
0.558
0.091
618
0.0043
4376
延庆
78
31
23
5
0.366
0.07
424
0.0039
4677
步骤为:
1、将数据导入spss
2、打开分析----分类---系统聚类
聚类表
阶
群集组合
首次出现阶群集
群集1
群集2
系数
群集1
群集2
下一阶
1
2
13
.000
0
0
4
2
10
18
.000
0
0
4
3
5
7
.000
0
0
10
4
2
10
.000
1
2
12
5
8
9
.000
0
0
7
6
3
14
.000
0
0
15
7
6
8
.000
0
5
8
8
4
6
.000
0
7
10
9
1
12
.001
0
0
11
10
4
5
.001
8
3
12
11
1
17
.001
9
0
13
12
2
4
.002
4
10
14
13
1
16
.003
11
0
15
14
2
11
.004
12
0
16
15
1
3
.006
13
6
16
16
1
2
.017
15
14
17
17
1
15
.095
16
0
0
3、在聚类界面依次进行相应项目,进行勾选。
可得如下结果。
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
西城2-+
通县13-+
房山10-+
延庆18-+
朝阳5-+
丰台7-+
石景山8-+-------+
门头湾9-+|
海淀6-+|
宜武4-++---------------------------------------+
昌平11-+||
崇文3-+-+||
大兴14-+|||
东城1-++-----+|
顺义12-+||
密云17-+-+|
怀柔16-+|
平谷15-------------------------------------------------+
判别分析法概述
判别分析又称"分辨法",是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
优点:
用这种方法得出的预测数据比较接近实际;另外,采用这种方法,便于确定分配给各销售人员的销售任务,发挥其积极性,激励他们努力完成各自的销售任务。
缺点:
由于受各种因素的影响,就比如销售人员的预测也会出现偏差,对销售人员的预测往往需要进行修正。
案例分析
为研究1991年中国城镇居民月平均收入状况,现将30个省、市、自治区为为三类。
试根据已有数据,研究广东、广西分别属于哪个收入类别?
数据如下。
1
北京
170.03
110.2
59.76
8.38
4.49
26.8
16.44
11.9
0.41
2
天津
141.55
82.58
50.98
13.4
9.33
21.3
12.36
9.21
1.05
3
河北
119.4
83.33
53.39
11
7.52
17.3
11.79
12
0.7
4
上海
194.53
107.8
60.24
15.6
8.88
31
21.01
11.8
0.16
5
山东
130.46
86.21
52.3
15.9
10.5
20.61
12.14
9.61
0.47
6
湖北
119.29
85.41
53.02
13.1
8.44
13.87
16.47
8.38
0.51
7
广西
134.46
98.61
48.18
8.9
4.34
21.49
26.12
13.6
4.56
8
海南
143.79
99.97
45.6
6.3
1.56
18.67
29.49
11.8
3.82
9
四川
128.05
74.96
50.13
13.9
9.62
16.14
10.18
14.5
1.21
10
云南
127.41
93.54
50.57
10.5
5.87
19.41
21.2
12.6
0.9
11
新疆
122.96
101.4
69.7
6.3
3.86
11.3
18.96
5.62
4.62
1
山西
102.49
71.72
47.72
9.42
6.96
13.12
7.9
6.66
0.61
2
内蒙古
106.14
76.27
46.19
9.65
6.27
9.655
20.1
6.97
0.96
3
吉林
104.93
72.99
44.6
13.7
9.01
9.435
20.61
6.65
1.68
4
黑龙江
103.34
62.99
42.95
11.1
7.41
8.342
10.19
6.45
2.68
5
江西
98.089
69.45
43.04
11.4
7.95
10.59
16.5
7.69
1.08
6
河南
104.12
72.23
47.31
9.48
6.43
13.14
10.43
8.3
1.11
7
贵州
108.49
80.79
47.52
6.06
3.42
13.69
16.53
8.37
2.85
8
陕西
113.99
75.6
50.88
5.21
3.86
12.94
9.492
6.77
1.27
9
甘肃
114.06
84.31
52.78
7.81
5.44
10.82
16.43
3.79
1.19
10
青海
108.8
80.41
50.45
7.27
4.07
8.371
18.98
5.95
0.83
11
宁夏
115.96
88.21
51.85
8.81
5.63
13.95
22.65
4.75
0.97
1
辽宁
128.46
68.91
43.41
22.4
15.3
13.88
12.42
9.01
1.41
2
江苏
135.24
73.18
44.54
23.9
15.2
22.38
9.661
13.9
1.19
3
浙江
162.53
80.11
45.99
24.3
13.9
29.54
10.9
13
3.47
4
安徽
111.77
71.07
43.64
19.4
12.5
16.68
9.698
7.02
0.63
5
福建
139.09
79.09
44.19
18.5
10.5
20.23
16.47
7.67
3.08
6
湖南
124
84.66
44.05
13.5
7.47
19.11
20.49
10.3
1.76
1
广东
211.3
114
41.44
33.2
11.2
48.72
30.77
14.9
11.1
2
西藏
175.93
163.8
57.89
4.22
3.37
17.81
82.32
15.7
0
分别为:
人均生活费收入、人均各种奖金、超额工资、人均国有经济单位职工工资、人均各种津贴、人均来源国有经济单位标准工资、人均工作单位得到的其他收入、人均集体所有制工资收入、个体劳动者收入、人均集体所有制职工标准工资。
步骤为:
1、将数据导入到spss中
2、打开分析---分类---判别
3、在判别界面上进行相应操作,并选定。
可得如下结果。
组统计量
组均值的均等性的检验
Wilks的Lambda
F
df1
df2
Sig.
V3
.916
.368
2
8
.703
V4
.915
.374
2
8
.699
V5
.976
.099
2
8
.907
V6
.920
.349
2
8
.715
V7
.973
.109
2
8
.898
V8
.889
.501
2
8
.624
V9
.866
.619
2
8
.562
V10
.983
.068
2
8
.935
V11
.864
.631
2
8
.556
主成分分析概述
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
优点:
1、可消除评估指标之间的相关影响。
因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。
2、可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。
3、主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。
用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。
缺点:
1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
3、当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
案例分析
地区
GDP
人均GDP
农业增加值
工业增加值
第三产业增加值
固定资产投资
基本建设投资
社会消费品零售总额
海关出口总额
地方财政收入
辽宁
5458.2
13000
14883.3
1376.2
2258.4
1315.9
529.0
2258.4
123.7
399.7
山东
10550
11643
1390.0
3502.5
3851.0
2288.7
1070.7
3181.9
211.1
610.2
河北
6076.6
9047
950.2
1406.7
2092.6
1161.6
597.1
1968.3
45.9
302.3
天津
2022.6
22068
83.9
822.8
960.0
703.7
361.9
941.4
115.7
171.8
江苏
10636
14397
1122.6
3536.3
3967.2
2320.0
1141.3
3215.8
384.7
643.7
上海
5408.8
40627
86.2
2196.2
2755.8
1970.2
779.3
2035.2
320.5
709.0
浙江
7670
16570
680.0
2356.5
3065.0
2296.6
1180.6
2877.5
294.2
566.9
福建
4682
13510
663.0
1047.1
1859.0
964.5
397.9
1663.3
173.7
272.9
广东
11770
15030
1023.9
4224.6
4793.6
3022.9
1275.5
5013.6
1843.7
1202.0
广西
2437.2
5062
591.4
367
995.7
542.2
352.7
1025.5
15.1
186.7
步骤:
1、将数据导入spss
2、打开分析---降维---因子分析
3、对应界面完成相应操作,并勾选。
可得结果如下
描述统计量
均值
标准差
分析N
GDP
6671.14
3410.308
10
人均GDP
16095.40
9713.803
10
农业增加值
2147.450
4494.5273
10
工业增加值
2083.59
1306.561
10
第三产业增加值
2659.830
1275.2963
10
固定资产投资
1658.630
830.2837
10
基本建设投资
768.600
368.1172
10
社会消费品零售总额
2418.090
1212.5053
10
海关出口总额
352.830
537.2115
10
地方财政收入
506.520
312.6804
10
相关矩阵a
GDP
人均GDP
农业增加值
工业增加值
第三产业增加值
相关
GDP
1.000
-.094
-.052
.967
.979
人均GDP
-.094
1.000
-.171
.113
.074
农业增加值
-.052
-.171
1.000
-.132
-.050
工业增加值
.967
.113
-.132
1.000
.985
第三产业增加值
.979
.074
-.050
.985
1.000
固定资产投资
.923
.214
-.098
.963
.973
基本建设投资
.922
.093
-.176
.939
.940
社会消费品零售总额
.941
-.043
.013
.935
.962
海关出口总额
.637
.081
-.125
.705
.714
地方财政收入
.826
.273
-.086
.898
.913
a.此矩阵不是正定矩阵。
相关矩阵a
固定资产投资
基本建设投资
社会消费品零售总额
相关
GDP
.923
.922
.941
人均GDP
.214
.093