随机数学建模方法及其应用.docx

资源描述

随机数学建模方法及其应用.docx

《随机数学建模方法及其应用.docx》由会员分享，可在线阅读，更多相关《随机数学建模方法及其应用.docx（25页珍藏版）》请在冰点文库上搜索。

随机数学建模方法及其应用.docx

随机数学建模方法及其应用

学院：

数学与计算机科学学院班级：

2012级数学与应用数学班姓名：

马从从学号：

P1*******6

回归分析法概述

回归分析法是通过研究两个或两个以上变量之间的相关关系，运用数理统计方法从事物的抑制状况预测未来的一种信息研究定量方法。

优点：

首先它利用降维技术用少数几个综合变量来代替原始多个变量，综合变量集中了原始变量的大部分信息。

其次它通过计算综合主成分函数得分，对客观经济现象进行科学评价。

再次它在应用上侧重于信息贡献影响力综合评价。

缺点：

是当主成分的因子负荷的符号有正有负时，综合评价函数意义就不明确。

命名清晰性低。

案例分析

以某医院的病例调查为例，对多元线性回归的显着性判断进行说明。

某医院为了解病人对医院工作的满意程度、病人的年龄、病情的严重程度、病人的忧虑程度之间的关系随机调查该医院的10位病人，可得到如下表格。

年龄

病情程度

忧虑程度

满意度

2.3

2.2

1.8

2.9

2.2

2.4

2.9

2.1

步骤：

1、将数据导入spss

2、打开分析--回归---线性

3、依次打开界面的每个选项进行对应选择。

可得到以下结果。

模型汇总b

模型

R方

调整R方

标准估计的误差

.960a

.922

.883

6.528

a.预测变量:

（常量）,忧虑程度,年龄,病情程度。

b.因变量:

满意度

Anovab

模型

平方和

均方

Sig.

回归

3031.208

1010.403

23.710

.001a

残差

255.692

42.615

总计

3286.900

a.预测变量:

（常量）,忧虑程度,年龄,病情程度。

b.因变量:

满意度

系数a

模型

非标准化系数

标准系数

标准误差

试用版

Sig.

（常量）

175.525

21.335

8.227

.000

年龄

-1.171

.389

-.509

-3.015

.024

病情程度

-.512

.799

-.146

-.641

.545

忧虑程度

-19.645

12.361

-.389

-1.589

.163

a.因变量:

满意度

残差统计量a

极小值

极大值

均值

标准偏差

预测值

25.92

85.36

56.90

18.352

残差

-11.526

5.108

.000

5.330

标准预测值

-1.688

1.551

.000

1.000

标准残差

-1.766

.782

.000

.816

a.因变量:

满意度

由上表可以得出：

聚类分析法概述

聚类分析法是将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。

目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

其主要依据是聚到同一个数据集中的样本应该彼此相似，而属于不同组的样本应该足够不相似

优点：

聚类分析模型的优点就是直观，结论形式简明。

缺点：

在样本量较大时，要获得聚类结论有一定困难。

由于相似系数是根据被试的反映来建立反映被试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

案例分析

某教育研究所根据相关数据欲对北京18个区县中职教育发展进行聚类研究。

包括每万人的中职在校生数、每万人的中职招生数、每万人的中职毕业生数、每万人的中职专任教师数、专任教师中本科以上学历者占的比例等。

数据表格如下

东城

156

0.507

0.245

701

0.0109

5356

西城

119

0.502

0.331

552

0.0063

6449

崇文

202

0.566

0.193

633

0.0168

5357

宜武

176

0.63

0.234

584

0.0155

6432

朝阳

221

0.499

0.254

553

0.0228

6625

海淀

169

0.573

0.183

573

0.0048

5840

丰台

166

0.444

0.142

465

0.0112

5532

石景山

192

0.524

0.085

535

0.0158

5695

门头湾

127

0.143

0.026

376

0.0057

3904

房山

115

0.571

0.127

618

0.0061

7020

昌平

232

0.531

0.106

491

0.0072

5089

顺义

0.341

0.079

403

0.0006

3056

通县

0.533

0.107

474

0.0031

5559

大兴

205

0.597

0.129

616

0.0107

4990

平谷

0.192

0.03

533

0.0007

2518

怀柔

121

0.223

0.076

637

0.0023

4149

密云

0.558

0.091

618

0.0043

4376

延庆

0.366

0.07

424

0.0039

4677

步骤为：

1、将数据导入spss

2、打开分析----分类---系统聚类

聚类表

阶

群集组合

首次出现阶群集

群集1

群集2

系数

群集1

群集2

下一阶

.000

.001

.002

.003

.004

.006

.017

.095

3、在聚类界面依次进行相应项目，进行勾选。

可得如下结果。

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

西城2-+

通县13-+

房山10-+

延庆18-+

朝阳5-+

丰台7-+

石景山8-+-------+

门头湾9-+|

海淀6-+|

宜武4-++---------------------------------------+

昌平11-+||

崇文3-+-+||

大兴14-+|||

东城1-++-----+|

顺义12-+||

密云17-+-+|

怀柔16-+|

平谷15-------------------------------------------------+

判别分析法概述

判别分析又称"分辨法"，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

优点：

用这种方法得出的预测数据比较接近实际;另外,采用这种方法,便于确定分配给各销售人员的销售任务，发挥其积极性，激励他们努力完成各自的销售任务。

缺点：

由于受各种因素的影响,就比如销售人员的预测也会出现偏差，对销售人员的预测往往需要进行修正。

案例分析

为研究1991年中国城镇居民月平均收入状况，现将30个省、市、自治区为为三类。

试根据已有数据，研究广东、广西分别属于哪个收入类别？

数据如下。

北京

170.03

110.2

59.76

8.38

4.49

26.8

16.44

11.9

0.41

天津

141.55

82.58

50.98

13.4

9.33

21.3

12.36

9.21

1.05

河北

119.4

83.33

53.39

7.52

17.3

11.79

0.7

上海

194.53

107.8

60.24

15.6

8.88

21.01

11.8

0.16

山东

130.46

86.21

52.3

15.9

10.5

20.61

12.14

9.61

0.47

湖北

119.29

85.41

53.02

13.1

8.44

13.87

16.47

8.38

0.51

广西

134.46

98.61

48.18

8.9

4.34

21.49

26.12

13.6

4.56

海南

143.79

99.97

45.6

6.3

1.56

18.67

29.49

11.8

3.82

四川

128.05

74.96

50.13

13.9

9.62

16.14

10.18

14.5

1.21

云南

127.41

93.54

50.57

10.5

5.87

19.41

21.2

12.6

0.9

新疆

122.96

101.4

69.7

6.3

3.86

11.3

18.96

5.62

4.62

山西

102.49

71.72

47.72

9.42

6.96

13.12

7.9

6.66

0.61

内蒙古

106.14

76.27

46.19

9.65

6.27

9.655

20.1

6.97

0.96

吉林

104.93

72.99

44.6

13.7

9.01

9.435

20.61

6.65

1.68

黑龙江

103.34

62.99

42.95

11.1

7.41

8.342

10.19

6.45

2.68

江西

98.089

69.45

43.04

11.4

7.95

10.59

16.5

7.69

1.08

河南

104.12

72.23

47.31

9.48

6.43

13.14

10.43

8.3

1.11

贵州

108.49

80.79

47.52

6.06

3.42

13.69

16.53

8.37

2.85

陕西

113.99

75.6

50.88

5.21

3.86

12.94

9.492

6.77

1.27

甘肃

114.06

84.31

52.78

7.81

5.44

10.82

16.43

3.79

1.19

青海

108.8

80.41

50.45

7.27

4.07

8.371

18.98

5.95

0.83

宁夏

115.96

88.21

51.85

8.81

5.63

13.95

22.65

4.75

0.97

辽宁

128.46

68.91

43.41

22.4

15.3

13.88

12.42

9.01

1.41

江苏

135.24

73.18

44.54

23.9

15.2

22.38

9.661

13.9

1.19

浙江

162.53

80.11

45.99

24.3

13.9

29.54

10.9

3.47

安徽

111.77

71.07

43.64

19.4

12.5

16.68

9.698

7.02

0.63

福建

139.09

79.09

44.19

18.5

10.5

20.23

16.47

7.67

3.08

湖南

124

84.66

44.05

13.5

7.47

19.11

20.49

10.3

1.76

广东

211.3

114

41.44

33.2

11.2

48.72

30.77

14.9

11.1

西藏

175.93

163.8

57.89

4.22

3.37

17.81

82.32

15.7

分别为：

人均生活费收入、人均各种奖金、超额工资、人均国有经济单位职工工资、人均各种津贴、人均来源国有经济单位标准工资、人均工作单位得到的其他收入、人均集体所有制工资收入、个体劳动者收入、人均集体所有制职工标准工资。

步骤为：

1、将数据导入到spss中

2、打开分析---分类---判别

3、在判别界面上进行相应操作，并选定。

可得如下结果。

组统计量

组均值的均等性的检验

Wilks的Lambda

df1

df2

Sig.

.916

.368

.703

.915

.374

.699

.976

.099

.907

.920

.349

.715

.973

.109

.898

.889

.501

.624

.866

.619

.562

V10

.983

.068

.935

V11

.864

.631

.556

主成分分析概述

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

优点：

1、可消除评估指标之间的相关影响。

因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分，而且实践证明指标间相关程度越高，主成分分析效果越好。

2、可减少指标选择的工作量，对于其他评估方法，由于难以消除评估指标间的相关影响，所以选择指标时要花费不少精力，而主成分分析法由于可以消除这种相关影响，所以在指标选择上相对容易些。

3、主成分分析中各主成分是按方差大小依次排列顺序的，在分析问题时，可以舍弃一部分主成分，只取前面方差较大的几个主成分来代表原变量，从而减少了计算工作量。

用主成分分析法作综合评估时，由于选择的原则是累计贡献率≥85%，不至于因为节省了工作量却把关键指标漏掉而影响评估结果。

缺点：

1、在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

2、主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。

因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

3、当主成分的因子负荷的符号有正有负时，综合评价函数意义就不明确。

案例分析

地区

GDP

人均GDP

农业增加值

工业增加值

第三产业增加值

固定资产投资

基本建设投资

社会消费品零售总额

海关出口总额

地方财政收入

辽宁

5458.2

13000

14883.3

1376.2

2258.4

1315.9

529.0

2258.4

123.7

399.7

山东

10550

11643

1390.0

3502.5

3851.0

2288.7

1070.7

3181.9

211.1

610.2

河北

6076.6

9047

950.2

1406.7

2092.6

1161.6

597.1

1968.3

45.9

302.3

天津

2022.6

22068

83.9

822.8

960.0

703.7

361.9

941.4

115.7

171.8

江苏

10636

14397

1122.6

3536.3

3967.2

2320.0

1141.3

3215.8

384.7

643.7

上海

5408.8

40627

86.2

2196.2

2755.8

1970.2

779.3

2035.2

320.5

709.0

浙江

7670

16570

680.0

2356.5

3065.0

2296.6

1180.6

2877.5

294.2

566.9

福建

4682

13510

663.0

1047.1

1859.0

964.5

397.9

1663.3

173.7

272.9

广东

11770

15030

1023.9

4224.6

4793.6

3022.9

1275.5

5013.6

1843.7

1202.0

广西

2437.2

5062

591.4

367

995.7

542.2

352.7

1025.5

15.1

186.7

步骤：

1、将数据导入spss

2、打开分析---降维---因子分析

3、对应界面完成相应操作，并勾选。

可得结果如下

描述统计量

均值

标准差

分析N

GDP

6671.14

3410.308

人均GDP

16095.40

9713.803

农业增加值

2147.450

4494.5273

工业增加值

2083.59

1306.561

第三产业增加值

2659.830

1275.2963

固定资产投资

1658.630

830.2837

基本建设投资

768.600

368.1172

社会消费品零售总额

2418.090

1212.5053

海关出口总额

352.830

537.2115

地方财政收入

506.520

312.6804