基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc
《基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc》由会员分享,可在线阅读,更多相关《基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc(13页珍藏版)》请在冰点文库上搜索。
![基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序).doc](https://file1.bingdoc.com/fileroot1/2023-5/4/b2d20dbc-711a-4d6f-96bd-5e302e08caac/b2d20dbc-711a-4d6f-96bd-5e302e08caac1.gif)
基于主成分-聚类分析的各地区火灾事故研究
摘要:
消防安全是公共安全的重要组成部分,火灾事故不仅严重威胁着人们的生命财产安全,而且还会引起社会恐慌和不安。
鉴于近年来我国火情比较严重,本文根据国家统计局《统计年鉴-2010》年中的火灾事故统计表,通过主成分、聚类法对30个省市火灾事故情况进行了分析。
并探讨了这两种方法的可行性,得出了火灾事故严重性评价的主要因素,及根据火灾严重性对各省市进行分类情况,对相关管理部门有一定的参考价值。
关键字:
火灾;主成分;聚类分析
一、问题提出
火灾事故是现代社会危害较大,发生较频繁的灾害,其不仅严重威胁着人民的生命财产安全,而且火灾造成的负面影响也严重危害着社会的安定。
据国家统计局统计数据显示,2010年全国共发生火灾事故132497起,造成人员死亡1205人,重伤624人,直接经济损失达195945.2万元,造成了巨大的社会负面影响。
另一方面,随着人们生活水平的提高,人们对安全的保障要求也越来越高,因此消防安全就愈发显得重要紧迫,那么如何更加合理的对消防安全进行管理,这就涉及到对以往火灾事故的分析总结,寻前车之鉴来更好的防范未来。
因此,根据主成分分析不同因素对火灾事故严重程度评价的的影响关系,找出主要影响因素,这对火灾严重程度的评判具有重要的意义。
进而根据严重程度的主要因素,运用聚类分析把各地的火灾事故情况进行聚类,划分出各个严重性所包含的区域,对有关部门的统筹管理是很有必要的。
二、问题解决的理论方法
1.主成分分析原理:
主成分分析是一种把原来多个指标化为少数几个互不相关(或相互独立(在总体是多维正态总体时))的综合指标的一种统计方法,可以达到数据简化、揭示变量之间的关系和进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供一些重要信息[1]。
在实际中有重要的应用地位。
例如在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。
能否从着众多的指标中构造出很少几个互不相关的所谓综合指标,而且这几个综合指标应尽可能充分的反映原来众多指标的信息。
从而使辨识系统从高维空间转化成低维空间,降低问题的难度。
对于总体X=(x1,…,xp)’,我们给出X的综合指标F1,…,Fk的确定原则为:
1)Fi是X的线性函数,即要求Fi=Li’X,Li是p*1维待定常数向量,i=1,…,k;
2)要求D(yi)尽可能大,即yi能充分反映X的变化情况,i=1,2,…,k;
3)要求F1,…,Fk互不相关,即Cov(Fi,Fj)=0,或者说F1,…,Fk之间尽可能不含重复信息。
这样的F1,…,Fk均称为X的主成分。
注意主成分的个数营销与原始变量的个数,至于应该保留几个主成分应该权衡主成分个数和保留的信息。
主成分的具体求解为:
第一主成分,设X的协方差阵为
由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得
其中l1,l2,…,lp为Σx的特征根,不妨假设l1³l2³…l³p。
而U恰好是由特征根相对应的特征向量所组成的正交阵。
i=1,2,…,p
则为系统的第一主成分,若第一主成分信息量不够则找第二主成分,确定原则相似,即是找第二大特征值对应的特征向量,与X相乘即可。
所以,求主成分即是求X的协方差阵的特征向量Ui,UiX即是第i个主成分。
主成分分析本身往往并不是最终目的,而是达到目的的一种手段。
它大多用于大型研究项目的某个中间环节。
例如用在回归分析、聚类分析等研究项目中。
2.聚类分析原理:
聚类分析的研究目的就是把相似的对象归并成类,研究的主要内容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的,所用的工具乃是数学[2]。
它是在没有知道类型的个数或对于各种类型的结构未做任何假设情况下的一种比较原始的方法。
聚类的依据是相似性或距离。
所以,需要引进一些能够刻画相似性的度量指标或数据。
聚类分析的基本思想是我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
在聚类分析中,通常我们将根据分类对象的不同分为变量聚类分析和样本聚类分析两大类。
变量聚类分析的主要作用是:
不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度;样本聚类分析的优点是:
可以综合利用多个变量的信息对样本进行分类,分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果,聚类分析所得到的结果比传统分类方法更细致、全面、合理。
聚类分析方法主要有系统聚类法和动态聚类法。
系统聚类法的基本思想是:
先将每个研究对象(样品或指标)各自看成一类,按某种顺序分别称作第1,第2,…,第h类,然后根据对象间的相似度量,将h中的相似的两类合并为一类,这样得到h-1类,再在这h-1类中选出最相似的两类合并,得到h-2类,如此下去知道将所有的对象合并成一个大类为止。
动态聚类的基本思想是:
先给出一个粗糙的初始分类,然后用某种原则进行修改,直到分类比较合理为止。
三、方法应用
数据资料来源:
国家统计局:
《中国年统计年鉴—2010》中的“公共管理及其他”部分[4],“全国各地区火灾事故情况”中的30个省、直辖市的30组数据,将数据列成表格形式为:
全国各地区火灾事安全评价指标(2010年)
序号
地区
发生数
死亡人数
受伤人数
直接经济损失
人口火灾发生率
X1(起)
X2(人)
X3(人)
X4(万元)
X5(1/10万人)
1
北京
5468
32
13
4361.0
43.34
2
天津
1148
23
3
624.7
11.60
3
河北
4757
29
14
5692.6
6.52
4
山西
4439
26
14
6331.7
12.78
5
内蒙古
8789
51
14
5306.7
35.83
6
辽宁
5566
42
14
3756.5
13.09
7
吉林
7862
43
25
7129.1
28.86
8
黑龙江
2944
26
13
5444.2
7.66
9
上海
5702
43
54
7149.2
40.37
10
江苏
5296
85
52
8975.5
7.09
11
浙江
3834
88
42
6835.5
8.08
12
安徽
5173
35
21
8474.3
7.58
13
福建
4016
55
18
9374.8
11.38
14
江西
4715
21
11
8074.4
10.05
15
山东
7226
32
15
13315.0
7.58
16
河南
3534
16
13
3781.9
3.27
17
湖北
9383
25
9
3821.3
15.26
18
湖南
2915
33
4
8388.0
4.12
19
广东
6158
132
64
17825.1
7.23
20
广西
1287
32
14
6094.2
2.41
21
海南
1052
3
1
1201.3
11.74
22
重庆
5040
43
24
13689.3
15.26
23
四川
6204
37
21
11197.8
6.89
24
贵州
1661
73
41
4566.2
3.97
25
云南
2069
64
20
7363.9
4.57
26
陕西
4620
23
11
8354.2
11.93
27
甘肃
1141
16
13
2887.9
4.21
28
青海
1623
12
13
926.0
29.51
29
宁夏
3447
5
1
1338.2
53.64
30
新疆
5209
60
41
3040.9
24.07
数据来源:
各个指标值根据《中国年统计年鉴——2010》的“公共管理及其他”,由于西藏信息不全故不做统计计算。
1、主成分分析过程:
下面对各个指标的数据进行应用统计分析,为了对各地区的火灾发生数x1、死亡人数x2、受伤人数x3、直接经济损失(万元)x4、人口火灾发生率x5,进行主成分分析,也就是对这五个指标进行降维处理。
找出火灾严重程度的评价的主要因素,具体程序分析如下:
主成分分析程序:
dataw;
inputx1-x5;
cards;
5468 32 13 4361.0 43.34
1148 23 3 624.7 11.60
4757 29 14 5692.6 6.52
4439 26 14 6331.7 12.78
8789 51 14 5306.7 35.83
5566 42 14 3756.5 13.09
7862 43 25 7129.1 28.86
2944 26 13 5444.2 7.66
5702 43 54 7149.2 40.37
5296 85 52 8975.5 7.09
3834 88 42 6835.5 8.08
5173 35 21 8474.3 7.58
4016 55 18 9374.8 11.38
4715 21 11 8074.4 10.05
7226 32 15 13315.0 7.58
3534 16 13 3781.9 3.27
9383 25 9 3821.3 15.26
2915 33 4 8388.0 4.12
6158 132 64 17825.1 7.23
1287 32 14 6094.2 2.41
1052 3 1 1201.3 11.74
5040 43 24 13689.3 15.26
6204 37 21 11197.8 6.89
1661 73 41 4566.2 3.97
2069 64 20 7363.9 4.57
4620 23 11 8354.2 11.93
1141 16 13 2887.9 4.21
1623 12 13 926.0 29.51
3447 5 1 1338.2 53.64
5209 60 41 3040.9 24.07
;
procprincompdata=w;
varx1-x5;
run;
运行结果如下:
TheSASSystem21:
45Sunday,April11,20121
ThePRINCOMPProcedure
Observations30
Variables5
SimpleStatistics
x1x2x3x4x5
Mean4409.26666740.1666666720.433333336510.71333314.99633333
StD2247.90435627.3648192616.106720243969.76656113.35252772
CorrelationMatrix
x1x2x3x4x5
x11.00000.23620.22990.41000.2963
x20.23621.00000.84880.5793-.2025
x30.22990.84881.00000.4837-.0421
x40.41000.57930.48371.0000-.3140
x50.2963-.2025-.0421-.31401.0000
EigenvaluesoftheCorrelationMatrix
EigenvalueDifferenceProportionCumulative
12.485960491.193140890.49720.4972
21.292819600.493086420.25860.7558
30.799733180.510446310.15990.9157
40.289286870.157087010.05790.9736
50.132199860.02641.0000
TheSASSystem21:
45Sunday,April11,20122
ThePRINCOMPProcedure
Eigenvectors
Prin1Prin2Prin3Prin4Prin5
x10.2890410.631186-.500386-.514779-.051716
x20.577733-.0856200.322199-.1667340.726142
x30.5459740.0244750.496424-.078685-.669840
x40.513375-.068206-.4993950.693635-.035635
x5-.1450470.7674780.3872580.4689150.141735
结果分析:
上述程序分析结果表明样本为30组5维的观测数据,其中X1、X2、X3、X4、X5的均值分别为4409.266667,40.16666667,20.43333333,6510.713333,14.99633333,方差分别为2247.904356,27.36481926,16.10672024,3969.766561,13.35252772。
样本的相关矩阵对应上述结果中的CorrelationMatrix所示,相关矩阵的特征表如EigenvaluesoftheCorrelationMatrix(分别列出了矩阵的特征值,方差,贡献率,累计贡献率)所示,特征值越大,它所对应的主成分变量包含的信息就越多,并且由该图可知X1-X5贡献率分别为,49.72%,25.86%,15.99%,5.79%,2.64%;由第四列的累计贡献率可知前3个成分就包含了原来5个指标的91.57%的信息,也就是前三个主成分已经完全符合统计的要求。
因此在分析中取三个主成分进行分析。
结果中的Eigenvectors部分列出了主成分的表达式,由最大特征值的特征向量知,第一主成分是:
Y1=0.289041x1*+0.57773x2*+0.545974x3*+0.513375x4*-0.145047x5*
由第二大特征值的特征向量知,第二主成分是:
Y2=0.631186x1*-0.085620x2*+0.024475x3*-0.068206x4*-0.145047x5*
由第三大特征值的特征向量知,第三主成分是:
Y3=0.500386x1*+0.322199x2*+0.496424x3*-0.499395x4*-0.387258x5*
其中x1*、x2*、x3*、x4*、x5*分别为变量标准化后的数据。
由于x1-x5的量纲不同,为了准确需对其进行标准化,标准化后的数据如下图所示:
变量X1-X5标准化后的数据表:
序号
地区
x1*
x2*
x3*
x4*
x5*
1
北京
0.470987
-0.29844
-0.46151
-0.54152
2.122719
2
天津
-1.4508
-0.62733
-1.08236
-1.48271
-0.25436
3
河北
0.154692
-0.40807
-0.39942
-0.20609
-0.63481
4
山西
0.013227
-0.5177
-0.39942
-0.04509
-0.16599
5
内蒙古
1.948363
0.395885
-0.39942
-0.3033
1.560279
6
辽宁
0.514583
0.066996
-0.39942
-0.6938
-0.14277
7
吉林
1.535979
0.103539
0.283526
0.155774
1.03828
8
黑龙江
-0.65184
-0.5177
-0.46151
-0.26866
-0.54943
9
上海
0.575084
0.103539
2.084016
0.160837
1.900289
10
江苏
0.394471
1.638357
1.959844
0.62089
-0.59212
11
浙江
-0.25591
1.747986
1.338986
0.081815
-0.51798
12
安徽
0.339753
-0.18881
0.035182
0.494635
-0.55543
13
福建
-0.17495
0.542059
-0.15108
0.721475
-0.27084
14
江西
0.136008
-0.70041
-0.58568
0.393899
-0.37044
15
山东
1.253049
-0.29844
-0.33733
1.714027
-0.55543
16
河南
-0.38937
-0.88313
-0.46151
-0.6874
-0.87821
17
湖北
2.212609
-0.55424
-0.70985
-0.67747
0.019747
18
湖南
-0.66474
-0.26189
-1.02028
0.472896
-0.81455
19
广东
0.777939
3.35589
2.704875
2.850139
-0.58164
20
广西
-1.38897
-0.29844
-0.39942
-0.10492
-0.94262
21
海南
-1.49351
-1.35819
-1.20654
-1.33746
-0.24387
22
重庆
0.280587
0.103539
0.22144
1.808315
0.019747
23
四川
0.798403
-0.11572
0.035182
1.180696
-0.6071
24
贵州
-1.22259
1.199837
1.2769
-0.48983
-0.82579
25
云南
-1.04109
0.870948
-0.0269
0.214921
-0.78085
26
陕西
0.093747
-0.62733
-0.58568
0.464382
-0.22964
27
甘肃
-1.45392
-0.88313
-0.46151
-0.9126
-0.80781
28
青海
-1.2395
-1.0293
-0.46151
-1.40681
1.08696
29
宁夏
-0.42807
-1.28511
-1.20654
-1.30298
2.894109
30
新疆
0.355768
0.724775
1.2769
-0.87406
0.679547
计算综合评价值:
Z=0.4972Y1+0.2586Y2+0.1599*Y3
根据上述得到的主成分分析结果算出各个样本的主成分Y1、Y2、Y3及综合评价指标Z如下表所示:
表:
各省市个主成分值及Z值(从大到小排序)
编号
城市
Y1
Y2
Y2
Z值
省市
1
北京
-0.25836
0.040578
-0.64119
2.795193
广东
2
天津
-2.17079
-0.75048
-0.62644
1.485499
江苏
3
河北
-0.60699
0.228936
0.0964
0.973118
上海
山西
-0.56056
0.07005
-0.27166
0.959728
浙江
5
内蒙古
0.644408
0.980481
0.45144
0.724607
吉林
6
辽宁
-0.40752
0.377315
0.482562
0.666759
新疆
7
吉林
0.889146
0.806338
0.462816
0.646137
内蒙古
8
黑龙江
-0.95708
-0.28038
-0.37513
0.555461
山东