基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc

资源描述

基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc

《基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc》由会员分享，可在线阅读，更多相关《基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc（13页珍藏版）》请在冰点文库上搜索。

基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc

基于主成分-聚类分析的各地区火灾事故研究

摘要：

消防安全是公共安全的重要组成部分，火灾事故不仅严重威胁着人们的生命财产安全，而且还会引起社会恐慌和不安。

鉴于近年来我国火情比较严重，本文根据国家统计局《统计年鉴-2010》年中的火灾事故统计表，通过主成分、聚类法对30个省市火灾事故情况进行了分析。

并探讨了这两种方法的可行性，得出了火灾事故严重性评价的主要因素，及根据火灾严重性对各省市进行分类情况，对相关管理部门有一定的参考价值。

关键字：

火灾；主成分；聚类分析

一、问题提出

火灾事故是现代社会危害较大，发生较频繁的灾害，其不仅严重威胁着人民的生命财产安全，而且火灾造成的负面影响也严重危害着社会的安定。

据国家统计局统计数据显示，2010年全国共发生火灾事故132497起，造成人员死亡1205人，重伤624人，直接经济损失达195945.2万元，造成了巨大的社会负面影响。

另一方面，随着人们生活水平的提高，人们对安全的保障要求也越来越高，因此消防安全就愈发显得重要紧迫，那么如何更加合理的对消防安全进行管理，这就涉及到对以往火灾事故的分析总结，寻前车之鉴来更好的防范未来。

因此，根据主成分分析不同因素对火灾事故严重程度评价的的影响关系，找出主要影响因素，这对火灾严重程度的评判具有重要的意义。

进而根据严重程度的主要因素，运用聚类分析把各地的火灾事故情况进行聚类，划分出各个严重性所包含的区域，对有关部门的统筹管理是很有必要的。

二、问题解决的理论方法

1.主成分分析原理：

主成分分析是一种把原来多个指标化为少数几个互不相关（或相互独立（在总体是多维正态总体时））的综合指标的一种统计方法，可以达到数据简化、揭示变量之间的关系和进行统计解释的目的，为进一步分析总体的性质和数据的统计特性提供一些重要信息[1]。

在实际中有重要的应用地位。

例如在社会经济的研究中，为了全面系统的分析和研究问题，必须考虑许多经济指标，这些指标能从不同的侧面反映我们所研究的对象的特征，但在某种程度上存在信息的重叠，具有一定的相关性。

能否从着众多的指标中构造出很少几个互不相关的所谓综合指标，而且这几个综合指标应尽可能充分的反映原来众多指标的信息。

从而使辨识系统从高维空间转化成低维空间，降低问题的难度。

对于总体X=（x1,…,xp）’，我们给出X的综合指标F1,…,Fk的确定原则为：

1）Fi是X的线性函数，即要求Fi=Li’X,Li是p*1维待定常数向量，i=1，…，k;

2）要求D（yi）尽可能大，即yi能充分反映X的变化情况，i=1,2,…,k;

3）要求F1,…,Fk互不相关，即Cov（Fi,Fj）=0,或者说F1,…,Fk之间尽可能不含重复信息。

这样的F1,…,Fk均称为X的主成分。

注意主成分的个数营销与原始变量的个数，至于应该保留几个主成分应该权衡主成分个数和保留的信息。

主成分的具体求解为:

第一主成分，设X的协方差阵为

由于Σx为非负定的对称阵，则有利用线性代数的知识可得，必存在正交阵U，使得

其中l1，l2，…，lp为Σx的特征根，不妨假设l1³l2³…l³p。

而U恰好是由特征根相对应的特征向量所组成的正交阵。

i=1,2,…,p

则为系统的第一主成分，若第一主成分信息量不够则找第二主成分，确定原则相似，即是找第二大特征值对应的特征向量，与X相乘即可。

所以，求主成分即是求X的协方差阵的特征向量Ui,UiX即是第i个主成分。

主成分分析本身往往并不是最终目的，而是达到目的的一种手段。

它大多用于大型研究项目的某个中间环节。

例如用在回归分析、聚类分析等研究项目中。

2．聚类分析原理：

聚类分析的研究目的就是把相似的对象归并成类，研究的主要内容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的，所用的工具乃是数学[2]。

它是在没有知道类型的个数或对于各种类型的结构未做任何假设情况下的一种比较原始的方法。

聚类的依据是相似性或距离。

所以，需要引进一些能够刻画相似性的度量指标或数据。

聚类分析的基本思想是我们所研究的样品或指标（变量）之间存在程度不同的相似性（亲疏关系——以样品间距离衡量）。

于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。

把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。

在聚类分析中，通常我们将根据分类对象的不同分为变量聚类分析和样本聚类分析两大类。

　变量聚类分析的主要作用是：

不但可以了解个别变量之间的关系的亲疏程度，而且可以了解各个变量组合之间的亲疏程度；样本聚类分析的优点是：

可以综合利用多个变量的信息对样本进行分类，分类结果是直观的，聚类谱系图非常清楚地表现其数值分类结果，聚类分析所得到的结果比传统分类方法更细致、全面、合理。

聚类分析方法主要有系统聚类法和动态聚类法。

系统聚类法的基本思想是：

先将每个研究对象（样品或指标）各自看成一类，按某种顺序分别称作第1，第2,…,第h类，然后根据对象间的相似度量，将h中的相似的两类合并为一类，这样得到h-1类，再在这h-1类中选出最相似的两类合并，得到h-2类，如此下去知道将所有的对象合并成一个大类为止。

动态聚类的基本思想是：

先给出一个粗糙的初始分类，然后用某种原则进行修改，直到分类比较合理为止。

三、方法应用

数据资料来源：

国家统计局：

《中国年统计年鉴—2010》中的“公共管理及其他”部分[4]，“全国各地区火灾事故情况”中的30个省、直辖市的30组数据，将数据列成表格形式为：

全国各地区火灾事安全评价指标（2010年）

序号

地区

发生数

死亡人数

受伤人数

直接经济损失

人口火灾发生率

X1（起）

X2（人）

X3（人）

X4（万元）

X5（1/10万人）

北京

5468

4361.0

43.34

天津

1148

624.7

11.60

河北

4757

5692.6

6.52

山西

4439

6331.7

12.78

内蒙古

8789

5306.7

35.83

辽宁

5566

3756.5

13.09

吉林

7862

7129.1

28.86

黑龙江

2944

5444.2

7.66

上海

5702

7149.2

40.37

江苏

5296

8975.5

7.09

浙江

3834

6835.5

8.08

安徽

5173

8474.3

7.58

福建

4016

9374.8

11.38

江西

4715

8074.4

10.05

山东

7226

13315.0

7.58

河南

3534

3781.9

3.27

湖北

9383

3821.3

15.26

湖南

2915

8388.0

4.12

广东

6158

132

17825.1

7.23

广西

1287

6094.2

2.41

海南

1052

1201.3

11.74

重庆

5040

13689.3

15.26

四川

6204

11197.8

6.89

贵州

1661

4566.2

3.97

云南

2069

7363.9

4.57

陕西

4620

8354.2

11.93

甘肃

1141

2887.9

4.21

青海

1623

926.0

29.51

宁夏

3447

1338.2

53.64

新疆

5209

3040.9

24.07

数据来源：

各个指标值根据《中国年统计年鉴——2010》的“公共管理及其他”，由于西藏信息不全故不做统计计算。

1、主成分分析过程：

下面对各个指标的数据进行应用统计分析，为了对各地区的火灾发生数x1、死亡人数x2、受伤人数x3、直接经济损失（万元）x4、人口火灾发生率x5，进行主成分分析，也就是对这五个指标进行降维处理。

找出火灾严重程度的评价的主要因素，具体程序分析如下：

主成分分析程序：

dataw;

inputx1-x5;

cards;

5468 32 13 4361.0 43.34

1148 23 3 624.7 11.60

4757 29 14 5692.6 6.52

4439 26 14 6331.7 12.78

8789 51 14 5306.7 35.83

5566 42 14 3756.5 13.09

7862 43 25 7129.1 28.86

2944 26 13 5444.2 7.66

5702 43 54 7149.2 40.37

5296 85 52 8975.5 7.09

3834 88 42 6835.5 8.08

5173 35 21 8474.3 7.58

4016 55 18 9374.8 11.38

4715 21 11 8074.4 10.05

7226 32 15 13315.0 7.58

3534 16 13 3781.9 3.27

9383 25 9 3821.3 15.26

2915 33 4 8388.0 4.12

6158 132 64 17825.1 7.23

1287 32 14 6094.2 2.41

1052 3 1 1201.3 11.74

5040 43 24 13689.3 15.26

6204 37 21 11197.8 6.89

1661 73 41 4566.2 3.97

2069 64 20 7363.9 4.57

4620 23 11 8354.2 11.93

1141 16 13 2887.9 4.21

1623 12 13 926.0 29.51

3447 5 1 1338.2 53.64

5209 60 41 3040.9 24.07

;

procprincompdata=w;

varx1-x5;

run;

运行结果如下：

TheSASSystem21:

45Sunday,April11,20121

ThePRINCOMPProcedure

Observations30

Variables5

SimpleStatistics

x1x2x3x4x5

Mean4409.26666740.1666666720.433333336510.71333314.99633333

StD2247.90435627.3648192616.106720243969.76656113.35252772

CorrelationMatrix

x1x2x3x4x5

x11.00000.23620.22990.41000.2963

x20.23621.00000.84880.5793-.2025

x30.22990.84881.00000.4837-.0421

x40.41000.57930.48371.0000-.3140

x50.2963-.2025-.0421-.31401.0000

EigenvaluesoftheCorrelationMatrix

EigenvalueDifferenceProportionCumulative

12.485960491.193140890.49720.4972

21.292819600.493086420.25860.7558

30.799733180.510446310.15990.9157

40.289286870.157087010.05790.9736

50.132199860.02641.0000

TheSASSystem21:

45Sunday,April11,20122

ThePRINCOMPProcedure

Eigenvectors

Prin1Prin2Prin3Prin4Prin5

x10.2890410.631186-.500386-.514779-.051716

x20.577733-.0856200.322199-.1667340.726142

x30.5459740.0244750.496424-.078685-.669840

x40.513375-.068206-.4993950.693635-.035635

x5-.1450470.7674780.3872580.4689150.141735

结果分析：

上述程序分析结果表明样本为30组5维的观测数据，其中X1、X2、X3、X4、X5的均值分别为4409.266667，40.16666667，20.43333333，6510.713333，14.99633333，方差分别为2247.904356，27.36481926，16.10672024，3969.766561，13.35252772。

样本的相关矩阵对应上述结果中的CorrelationMatrix所示，相关矩阵的特征表如EigenvaluesoftheCorrelationMatrix（分别列出了矩阵的特征值，方差，贡献率，累计贡献率）所示，特征值越大，它所对应的主成分变量包含的信息就越多，并且由该图可知X1-X5贡献率分别为,49.72%，25.86%，15.99%，5.79%，2.64%；由第四列的累计贡献率可知前3个成分就包含了原来5个指标的91.57%的信息，也就是前三个主成分已经完全符合统计的要求。

因此在分析中取三个主成分进行分析。

结果中的Eigenvectors部分列出了主成分的表达式，由最大特征值的特征向量知，第一主成分是：

Y1=0.289041x1*+0.57773x2*+0.545974x3*+0.513375x4*-0.145047x5*

由第二大特征值的特征向量知，第二主成分是：

Y2=0.631186x1*-0.085620x2*+0.024475x3*-0.068206x4*-0.145047x5*

由第三大特征值的特征向量知，第三主成分是：

Y3=0.500386x1*+0.322199x2*+0.496424x3*-0.499395x4*-0.387258x5*

其中x1*、x2*、x3*、x4*、x5*分别为变量标准化后的数据。

由于x1-x5的量纲不同，为了准确需对其进行标准化，标准化后的数据如下图所示：

变量X1-X5标准化后的数据表：

序号

地区

x1*

x2*

x3*

x4*

x5*

北京

0.470987

-0.29844

-0.46151

-0.54152

2.122719

天津

-1.4508

-0.62733

-1.08236

-1.48271

-0.25436

河北

0.154692

-0.40807

-0.39942

-0.20609

-0.63481

山西

0.013227

-0.5177

-0.39942

-0.04509

-0.16599

内蒙古

1.948363

0.395885

-0.39942

-0.3033

1.560279

辽宁

0.514583

0.066996

-0.39942

-0.6938

-0.14277

吉林

1.535979

0.103539

0.283526

0.155774

1.03828

黑龙江

-0.65184

-0.5177

-0.46151

-0.26866

-0.54943

上海

0.575084

0.103539

2.084016

0.160837

1.900289

江苏

0.394471

1.638357

1.959844

0.62089

-0.59212

浙江

-0.25591

1.747986

1.338986

0.081815

-0.51798

安徽

0.339753

-0.18881

0.035182

0.494635

-0.55543

福建

-0.17495

0.542059

-0.15108

0.721475

-0.27084

江西

0.136008

-0.70041

-0.58568

0.393899

-0.37044

山东

1.253049

-0.29844

-0.33733

1.714027

-0.55543

河南

-0.38937

-0.88313

-0.46151

-0.6874

-0.87821

湖北

2.212609

-0.55424

-0.70985

-0.67747

0.019747

湖南

-0.66474

-0.26189

-1.02028

0.472896

-0.81455

广东

0.777939

3.35589

2.704875

2.850139

-0.58164

广西

-1.38897

-0.29844

-0.39942

-0.10492

-0.94262

海南

-1.49351

-1.35819

-1.20654

-1.33746

-0.24387

重庆

0.280587

0.103539

0.22144

1.808315

0.019747

四川

0.798403

-0.11572

0.035182

1.180696

-0.6071

贵州

-1.22259

1.199837

1.2769

-0.48983

-0.82579

云南

-1.04109

0.870948

-0.0269

0.214921

-0.78085

陕西

0.093747

-0.62733

-0.58568

0.464382

-0.22964

甘肃

-1.45392

-0.88313

-0.46151

-0.9126

-0.80781

青海

-1.2395

-1.0293

-0.46151

-1.40681

1.08696

宁夏

-0.42807

-1.28511

-1.20654

-1.30298

2.894109

新疆

0.355768

0.724775

1.2769

-0.87406

0.679547

计算综合评价值：

Z=0.4972Y1+0.2586Y2+0.1599*Y3

根据上述得到的主成分分析结果算出各个样本的主成分Y1、Y2、Y3及综合评价指标Z如下表所示：

表：

各省市个主成分值及Z值（从大到小排序）

编号

城市

Z值

省市

北京

-0.25836

0.040578

-0.64119

2.795193

广东

天津

-2.17079

-0.75048

-0.62644

1.485499

江苏

河北

-0.60699

0.228936

0.0964

0.973118

上海

山西

-0.56056

0.07005

-0.27166

0.959728

浙江

内蒙古

0.644408

0.980481

0.45144

0.724607

吉林

辽宁

-0.40752

0.377315

0.482562

0.666759

新疆

吉林

0.889146

0.806338

0.462816

0.646137

内蒙古

黑龙江

-0.95708

-0.28038

-0.37513

0.555461

山东

展开阅读全文