环境污染情况聚类分析资料.docx

上传人:b****3 文档编号:5530710 上传时间:2023-05-08 格式:DOCX 页数:17 大小:467KB
下载 相关 举报
环境污染情况聚类分析资料.docx_第1页
第1页 / 共17页
环境污染情况聚类分析资料.docx_第2页
第2页 / 共17页
环境污染情况聚类分析资料.docx_第3页
第3页 / 共17页
环境污染情况聚类分析资料.docx_第4页
第4页 / 共17页
环境污染情况聚类分析资料.docx_第5页
第5页 / 共17页
环境污染情况聚类分析资料.docx_第6页
第6页 / 共17页
环境污染情况聚类分析资料.docx_第7页
第7页 / 共17页
环境污染情况聚类分析资料.docx_第8页
第8页 / 共17页
环境污染情况聚类分析资料.docx_第9页
第9页 / 共17页
环境污染情况聚类分析资料.docx_第10页
第10页 / 共17页
环境污染情况聚类分析资料.docx_第11页
第11页 / 共17页
环境污染情况聚类分析资料.docx_第12页
第12页 / 共17页
环境污染情况聚类分析资料.docx_第13页
第13页 / 共17页
环境污染情况聚类分析资料.docx_第14页
第14页 / 共17页
环境污染情况聚类分析资料.docx_第15页
第15页 / 共17页
环境污染情况聚类分析资料.docx_第16页
第16页 / 共17页
环境污染情况聚类分析资料.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

环境污染情况聚类分析资料.docx

《环境污染情况聚类分析资料.docx》由会员分享,可在线阅读,更多相关《环境污染情况聚类分析资料.docx(17页珍藏版)》请在冰点文库上搜索。

环境污染情况聚类分析资料.docx

环境污染情况聚类分析资料

 

使用SAS、SPSS软件对中国几个城市的环境污染情况进行聚类分析

摘要:

随着社会的发展与进步,环境污染也变得日益严重起来,随着全国范围内大面积大雾不消现象的发生,人们对环境污染情况也更关注了。

这篇论文就是通过使用SPSS和SAS软件,对中国的几个大城市进行环境污染方面的聚类分析。

关键词:

聚类分析,SPSS,SAS,环境污染,离差平方和法

 

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

它是一种重要的人类行为。

聚类分析的目标就是在相似的基础上收集数据来分类。

聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。

在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

聚类分析具有很多不同的方法,现使用离差平方和法,重心法,最短距离法,最长距离法这四种方法对这32座城市进行分类,以下是这32座城市污染情况的表格:

 

城市

AQI

PM2.5

PM10

CO

NO2

O3

SO2

北京

117

163

157

3.17

64

18

6

上海

70

32

40

0.71

48

51

7

广州

44

27

47

1.01

53

41

10

深圳

53

58

78

1.55

25

47

6

杭州

59

19

44

0.56

28

47

4

天津

241

175

199

1.26

67

69

16

成都

146

25

66

0.53

31

237

9

南京

92

16

24

0.64

34

73

7

西安

93

29

70

1

31

123

20

武汉

48

17

36

0.74

29

95

6

南京

92

16

24

0.64

34

73

7

昆明

48

18

54

0.81

29

51

15

海口

29

8

41

0.52

25

23

13

福州

45

17

37

0.76

30

30

6

南宁

31

22

28

0.84

20

41

8

贵阳

54

63

109

0.8

34

95

21

长春

78

39

80

0.68

34

105

4

南昌

55

29

64

1.27

24

53

12

大连

54

32

49

0.5

28

56

2

长沙

56

55

77

0.82

23

66

10

武汉

48

17

36

0.74

29

95

6

温州

48

10

60

1.07

39

61

10

青岛

85

19

46

0.94

18

72

18

乌鲁木齐

75

40

42

0.4

23

91

4

太原

182

47

89

1.01

64

129

46

厦门

34

43

18

0.67

32

59

6

郑州

94

46

107

1.51

30

93

21

保定

174

250

290

1.16

22

87

10

合肥

143

18

24

0.5

20

56

8

珠海

48

41

78

1.35

13

46

4

重庆

49

35

57

0.77

44

66

20

兰州

88

56

108

0.43

36

60

16

呼和浩特

98

34

85

1.24

30

67

16

拉萨

38

12

25

1.58

18

69

10

哈尔滨

73

20

54

0.95

30

59

9

 

SPSS部分:

首先对数据进行标准化处理,然后用SPSS软件分别使用最长距离法,重心法和离差平方和法进行分析处理。

最长距离法:

群集成员

案例

5群集

4群集

3群集

2群集

1:

北京

1

1

1

1

2:

上海

2

2

2

2

3:

广州

2

2

2

2

4:

深圳

2

2

2

2

5:

杭州

2

2

2

2

6:

天津

3

1

1

1

7:

成都

4

3

3

2

8:

南京

2

2

2

2

9:

西安

2

2

2

2

10:

武汉

2

2

2

2

11:

南京

2

2

2

2

12:

昆明

2

2

2

2

13:

海口

2

2

2

2

14:

福州

2

2

2

2

15:

南宁

2

2

2

2

16:

贵阳

2

2

2

2

17:

长春

2

2

2

2

18:

南昌

2

2

2

2

19:

大连

2

2

2

2

20:

长沙

2

2

2

2

21:

武汉

2

2

2

2

22:

温州

2

2

2

2

23:

青岛

2

2

2

2

24:

乌鲁木齐

2

2

2

2

25:

太原

4

3

3

2

26:

厦门

2

2

2

2

27:

郑州

2

2

2

2

28:

保定

5

4

1

1

29:

合肥

2

2

2

2

30:

珠海

2

2

2

2

31:

重庆

2

2

2

2

32:

兰州

2

2

2

2

33:

呼和浩特

2

2

2

2

34:

拉萨

2

2

2

2

35:

哈尔滨

2

2

2

2

 

 

重心法:

群集成员

案例

5群集

4群集

3群集

2群集

1:

北京

1

1

1

1

2:

上海

2

2

2

2

3:

广州

2

2

2

2

4:

深圳

2

2

2

2

5:

杭州

2

2

2

2

6:

天津

3

1

1

1

7:

成都

4

3

3

2

8:

南京

2

2

2

2

9:

西安

2

2

2

2

10:

武汉

2

2

2

2

11:

南京

2

2

2

2

12:

昆明

2

2

2

2

13:

海口

2

2

2

2

14:

福州

2

2

2

2

15:

南宁

2

2

2

2

16:

贵阳

2

2

2

2

17:

长春

2

2

2

2

18:

南昌

2

2

2

2

19:

大连

2

2

2

2

20:

长沙

2

2

2

2

21:

武汉

2

2

2

2

22:

温州

2

2

2

2

23:

青岛

2

2

2

2

24:

乌鲁木齐

2

2

2

2

25:

太原

4

3

3

2

26:

厦门

2

2

2

2

27:

郑州

2

2

2

2

28:

保定

5

4

1

1

29:

合肥

2

2

2

2

30:

珠海

2

2

2

2

31:

重庆

2

2

2

2

32:

兰州

2

2

2

2

33:

呼和浩特

2

2

2

2

34:

拉萨

2

2

2

2

35:

哈尔滨

2

2

2

2

 

 

离差平方和法:

 

群集成员

案例

5群集

4群集

3群集

2群集

1:

北京

1

1

1

1

2:

上海

2

2

2

2

3:

广州

2

2

2

2

4:

深圳

2

2

2

2

5:

杭州

2

2

2

2

6:

天津

1

1

1

1

7:

成都

3

3

3

2

8:

南京

2

2

2

2

9:

西安

4

4

2

2

10:

武汉

2

2

2

2

11:

南京

2

2

2

2

12:

昆明

2

2

2

2

13:

海口

2

2

2

2

14:

福州

2

2

2

2

15:

南宁

2

2

2

2

16:

贵阳

4

4

2

2

17:

长春

4

4

2

2

18:

南昌

2

2

2

2

19:

大连

2

2

2

2

20:

长沙

2

2

2

2

21:

武汉

2

2

2

2

22:

温州

2

2

2

2

23:

青岛

2

2

2

2

24:

乌鲁木齐

2

2

2

2

25:

太原

3

3

3

2

26:

厦门

2

2

2

2

27:

郑州

4

4

2

2

28:

保定

5

1

1

1

29:

合肥

2

2

2

2

30:

珠海

2

2

2

2

31:

重庆

2

2

2

2

32:

兰州

4

4

2

2

33:

呼和浩特

4

4

2

2

34:

拉萨

2

2

2

2

35:

哈尔滨

2

2

2

2

 

 

从三种方法的树状图可以看出,离差平方和法的聚类效果最好

综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。

分为3类的结果:

第一类:

北京、天津、保定

第二类:

上海、广州、深圳、杭州、南京、西安、武汉、昆明、海口、福州、南宁、贵阳、长春、大连、南昌、长沙、武汉、温州、青岛、乌鲁木齐、厦门、郑州、合肥、珠海、重庆、兰州、呼和浩特、拉萨、哈尔滨

第三类:

成都、太原

 

SAS部分:

 

接下来,我们再使用SAS软件分别使用最短距离法,重心法和离差平方和法进行分析处理。

SAS程序输入:

procclusterdata=sasuser.kmethod=sinpseudo;

idregion;

proctreehorizontal;

idregion;

procclusterdata=sasuser.kmethod=cenpseudo;

idregion;

proctreehorizontal;

idregion;

procclusterdata=sasuser.kmethod=warnotiepseudo;

idregion;

proctreehorizontal;

idregion;

run;

最短距离法:

 

 

 

 

重心法:

 

离差平方和法:

 

 

从三种方法的树状图可以看出,离差平方和法的聚类效果最好,符合聚类分析的类内距离小,类间距离大。

就离差平方和法的聚类结果进行分析。

 

可以看出,系统聚类共进行了32步,在每一步都合并了两个类。

查看图中统计量(RSQ),发现统计量随着分类个数的减少而减少,并且在由3类合并为2类时统计量减少得较快(从0.704减少为0.554)。

因此,从统计量来看分为3类比较合适。

接下来分析半偏统计量(SPRSQ),发现NCL=1时半偏统计量最大(值为0.5544),当NCL=2时半偏统计量次大(值为0.1497),说明这两步合并效果不好,应该采取上一步的分类。

因此,从半偏统计量来看分为2类或3类比较合适。

再分析伪F统计量(PSF),发现随着分类个数的减少伪F统计量也基本上呈现减少的趋势。

但当NCL=5、4、3和2时,伪F统计量出现了在局部增大的情况。

因此,根据伪F统计量的准则认为分成6类、5类、4类和3类是比较合适的。

最后看伪统计量(PST2),发现当NCL=1时伪统计量最大(值为38.6),当NCL=2时伪统计量次大(值为19.4),NCL=3时伪统计量(值为13.7),这说明这三步合并效果并不好,应该采取上一步的分类。

因此,从伪统计量来看,我们认为分为2类、3类和4类比较合适。

综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。

分为3类的结果:

第一类:

北京、天津、保定污染程度一般

第二类:

上海、广州、深圳、杭州、南京、西安、武汉、昆明、海口、福州、南宁、贵阳、长春、大连、南昌、长沙、武汉、温州、青岛、乌鲁木齐、厦门、郑州、合肥、珠海、重庆、兰州、呼和浩特、拉萨、哈尔滨污染较轻

第三类:

成都、太原污染最严重

由此我们可以看出,SAS和SPSS所得出的结果是相同的,因此结果是相对比较准确的!

 

参考文献:

PM25.IN网站

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2