聚类分析方法在我国空气污染区域划分中的应用.docx

资源描述

聚类分析方法在我国空气污染区域划分中的应用.docx

《聚类分析方法在我国空气污染区域划分中的应用.docx》由会员分享，可在线阅读，更多相关《聚类分析方法在我国空气污染区域划分中的应用.docx（42页珍藏版）》请在冰点文库上搜索。

聚类分析方法在我国空气污染区域划分中的应用.docx

聚类分析方法在我国空气污染区域划分中的应用

聚类分析方法在我国空气污染

区域划分中的应用

XX大学笪婷婷、邹委员、武锦

摘要

随着我国工业化进一步的发展，人们的生活也进一步的提高。

伴随着经济的发展，环境也受到了一定的影响，国家也相应的提出了人与自然和谐相处的可持续发展战略。

本文基于国家的政策，考虑工业化过程中城市空气的污染情况，提出相应的合理建议，从而使工业化过程中我们的环境也能受到更好的保护！

聚类分析是目前最有前景的数据分析方法之一，它不仅能作为一个独立的工具来获得数据分布的情况，观察每一个簇的特点，还能集中地对某些特定的簇作进一步的分析。

对空气污染区域划分的聚类分析，不仅能合理的分析我国各地区空气污染的情况，还可以对我们工业化发展的伟大蓝图提出我们瀚渺的建议，维护我们广大城市居民的切身利益！

本文首先对几种聚类方法进行了介绍和比较，然后在对我国空气污染现状分析中，运用了系统聚类分析方法。

首先，我们采用了组内连接聚类分析方法对我国的空气污染区域按照污染程度的不同进行了划分；其次，我们又采用了中位数聚类分析法对我国的空气污染区域按照不同地区的废气处理情况进行了划分；最后我们又采用了质心聚类分析法对各污染区域按年度的不同进行划分。

我们用所选的三种数据进行聚类，产生的七个类是在整体上是一致的。

这就表明，空气污染程度与废气处理的力度是成正相关的。

为了说明系统聚类分析方法在我国空气污染区域划分中的合理性，我们又采用了k-means方法进行聚类，所得的聚类结果与运用系统聚类法的结果相似。

从而进一步说明分类的合理性。

根据聚类结果，我们提出了一些相关的防治空气污染的建议。

相关部门应该按照污染地区的分类有针对性的制定相关策略，因地制宜，对污染程度相近的地区采用合理的方式进行治理。

关键词：

聚类方法；系统聚类法；中位数聚类分析；组内连接聚类分析；质

心聚类分析

TheApplicationofClusterMethodinAirPollutionRegionalDivisionofOurCountry

Abstract

Withthefurtherdevelopmentoftheindustryinourcountry,peoplehaveundergonegeneralimprovement.However,theenvironmentisaccordinglysufferingsomeattackfromtheprogressofeconomy.Thegovernmenthaslaunchedthestrategyofsustainabledevelopmentinordertobuildharmoniousrelationshipbetweenhumanandnature.Basedonthepolicyofourgovernment,takingthepollutioninurbanareaintoconsideration,ourarticlegivessomecorrespondingadvicestoprotectourenvironmentintheindustrialization.

Clustermethodisoneofthemostpromisingmethodsindataanalysis.Notonlycanitactasanindependenttooltoobtaintheinformationofdatadistributionandobservationofthecharacteristicsofeachcluster,butalsodofurtheranalysisforsomeparticularclusters.Usingtheclustermethodintheanalysisofdivisionforpollutedurbanarea,wecandoreasonableanalysisandgetacquaintanceofconditionofairpollutionindifferentplaces.Ourtrivialremendationswillbeeupfortheblueskyofourindustrydevelopmentandsafeguardingthevitalinterestsofthecitydwellers.

Atthebeginningofthispaper,morethanonekindofclustermethodwillbeintroducedandparedinthispaper.Furthermore,systematicclustermethodswillbeappliedinthedivisionofthecurrentairpollutioncircumstances.Firstly,weuseteamlinkedclustermethodtodivideregionsaccordingtothepollutiondegree.Secondly,weusemedianclustermethodinaccordancewiththepollutantdisposalofdifferentareas.Lastly,weusecentroidclustermethodbyjudgingtheannualconditionofairpollution.Weclusterthesethreekindsofdata,findingthatsevencategoriesweproduceareaccordantonthewhole,whichsuggeststhatpollutiondegreeispositivelyrelatedtothestrengthwedepose.

Toillustratetherationalityofsystematicclustermethodappliedinairpollutionregionaldivision,weutilizek-meanstocluster.Toourhappiness,theresultweobtainisquitesimilartothatofsystematicclustermethod,whichshowstherationality.

Accordingtotheclusteringresults,weputforwardsomerelevantsuggestionsforthepreventionandcontrolofairpollution.Relevantdepartmentsshouldformulaterelevantstrategiesbasedontheclassificationofpollutionareas,andtakesuitablemeasuresforlocalconditions.Alsoweshoulddeposethepollutioninsimilarlevelsinareasonableway.

Keywords:

clustersystemclusteringmethod;medianclusteranalysis;connectionclusteranalysiswithinthegroup;acentroidclusteranalysis

一.研究背景

我国经济的快速增长，工业化、城市化的发展使得GDP年增长率达到8％～9％。

改革开放以来，我国的城市化进程加快，城市人口比例从1978年的18％增加到2000年的34％，这一时期的增长速度是世界平均增长速度的3倍。

20世纪末，经济的剧增使得我国成为世界上第二大能源消费国，能源的消耗已成为我国空气污染的主要来源。

我国的总能源消耗已经从1978年的571万吨标准煤增加到2002年的15亿吨标准煤，其中作为主要能源的燃煤占总能源消耗的60％以上。

燃煤是空气污染物产生的重要原因。

此外，随着汽车消费量的快速增加，燃油消耗年平均增长达6％，使得空气的污染物浓度不断上升。

我国的空气污染状况不容乐观。

（一）导致空气污染的原因

造成我国空气污染的原因是非常多的，但纵观所有的污染成因，以下原因应该是最具有普遍性的。

城市人口爆炸性增长。

城市强大的经济活力，丰富的物质文化条件和就业机会，对农村人口有具大的吸引力，进入20世纪以来，人口城市化加速发展，城市人口急剧增长。

我国城市化虽然起步较晚，但城市人口增加速度却十分惊人，例如1980年我国城市人口有1.3亿，占全国总人数的13.6％；1990年增加到近3亿，占全国总人口的26.2％。

城市个数由1983年的289个，到1993年增到570个，几乎增加了一倍，而城市人口大于100万的大型城市就有42个之多。

我国大城市人口密度平均每平方公里1万人以上，是郊区人口平均密度的22－96倍。

城市中人口数量巨大的工矿企业，单位面积上具有高投资、高能耗的特点。

由于城市处于高密度、超负荷运转状态，因此城市空气、水、土地及一切基础工程设施都承受着超载的负担，引起了一系列环境问题。

城市空气污染、缺电、缺水，城市环境脏、乱、差。

不同地区能源消耗类型又决定了不同地区污染的差异。

空气污染可以按照能源消耗的不同分为煤烟型、石油型、扬尘型和复合型等。

煤烟型污染的特征是空气污染物中总悬浮颗粒物和二氧化硫所占的比例较大；石油型污染主要是来自石油燃烧、石油化工和汽车尾气产生的二次污染，发达国家多属此类污染，污染严重时可形成光化学烟雾，并在5-9月浓度较高，我国XX省XX市就是属于这种类型；扬尘型污染是以二次扬尘、建筑垃圾扬尘、机动车污染以及沙尘天气所造成的总悬浮颗粒物污染为主的非燃煤粉尘污染；以石油型污染、二次扬尘、建筑扬尘及机动车排放污染为代表的污染称为复合型污染，此类污染是以煤烟型污染为主导的，主要形成于煤烟型污染向石油型污染转化的工业发达城市，有煤烟型污染与石油型污染的共同特征。

气象条件对空气污染产生的影响。

空气污染主要取决于两方面：

一是与污染源排入空气中污染物的多少有关；二是取决于各地区上空边界层大气对污染物的稀释扩散能力──大气环境容量。

就某一有限时段而言，地区各污染源的排放总量可能没有多大变化，但污染浓度的日际变化或月际变化很明显，主要是由天气过程和天气系统影响各地区大气边界层对污染物的稀释扩散能力所致。

（二）空气污染情况值得关注

图1.2.12001-2009全国二氧化硫排放量折线图

上图是2001年至2009年全国二氧化硫排放量的折线图（所用数据见附录A中的表3）。

由图可以看出，自2006年开始，我国二氧化硫排放量有明显的下降趋势，但是直至2009年，二氧化硫排放量仍处于较高水平。

这就表明，近年来我国空气中的二氧化硫治理水平有所提高，但是仍需要继续加大整治力度，使二氧化硫排放量继续减少。

虽然二氧化硫的排放量并不能完全反应我国的空气污染状况，但是也能在很大程度上反映出空气质量的变化。

目前，我国正处在经济高速发展阶段，工业、农业、交通运输业等发展迅速，人们向往已久的“小康生活”逐渐成为现实，但是伴随而来的是人们的生存环境受到污染。

我国的空气污染情况仍旧值得关注，我们每一个人都有职责来改善空气质量，营造一个健康舒适的生活环境。

（三）空气污染的不利影响

毫无疑问，大气环境的不断恶化，其后果之一是使人们自身的健康受到严重威胁，造成某些疾病发病率和死亡率的不断上升。

据联合国环境规划署统计，全世界每年约有120万人成为新的皮肤癌患者，呼吸系统和心血管疾病患者也呈增加趋势。

诚然，这些不能全部归咎于空气污染，但有理由认为，这与当前的大气环境恶化密切相关。

这就提醒我们，在尽情享受大自然恩惠和现代化成果的同时，也该认真、冷静地思考一下由于人类自身行为而导致大气环境不断恶化、自身健康受到损害的严峻现实。

空气污染也会对农业造成危害。

空气污染对农作物的危害分三种类型：

一是急性危害，在污染物高浓度时，短时间内对农作物造成危害，使之叶面枯萎脱落，直至死亡，造成农作物减产；二是慢性危害，在污染物低浓度时，因长时间作用所造成的危害，使农作物叶绿素褪色，影响生长发育；三是不可见危害，指污染物质对农作物造成生理上的障碍，抑制生育发展，造成产量下降。

空气污染物对天气和气候的影响是十分显著的，可以从以下几个方面加以说明：

1．空气污染使得到达地面的太阳辐射量减少。

从工厂、发电站、汽车、家庭取暖设备等向大气中排放的大量烟尘微粒，使空气变得非常浑浊，遮挡了阳光，减少了到达地面的太阳辐射量。

据观测统计，在大工业城市烟雾不散的日子里，到达地面的太阳辐射量比没有烟雾的日子减少近40％。

在空气污染严重的城市，天天如此，就会导致人和动植物因缺乏阳光而生长发育受到阻碍。

2．空气污染增加了大气降水量。

在大工业城市的空气中有很多微粒，其中有很多具有水气凝结核的作用。

因此，如果再有其他一些降水条件与之配合，就会出现降水天气，尤其在大工业城市的下风地区，降水量更多。

3．空气污染会导致下酸雨。

有时候，在空气污染地区所下的雨水中含有硫酸。

这种酸雨是空气中的污染物二氧化硫经过氧化形成硫酸，随自然界的降水下落形成的。

酸雨的危害很大，它能使大片森林和农作物毁坏，能使纸品、纺织品、皮革制品等腐蚀破碎，能使金属的防锈涂料变质而降低保护作用，还会腐蚀、污染建筑物。

4．空气污染能增高大气温度。

大气中的二氧化碳可以使大量的太阳辐射能通过大气层辐射到地球表面，吸收从地球表面辐射出的红外线。

二氧化碳在吸收热量后，再将吸收的辐射能逆辐射到地球表面，形成多次辐射，使近地层大气增温。

大气中的二氧化碳好像是一个屏蔽，就像农业所建的温室一样，所以把大气中的二氧化碳所产生的效应叫做温室效应。

由于温室效应，有人估算如果大气中二氧化碳浓度为420ppm时，地球上所有的冰雪将融化，反之，若二氧化碳浓度减小为150ppm时，温室效应减弱了，地球就可能完全被冰雪所覆盖。

除此之外，空气污染还会带来很多其他不利影响。

在这些问题更加严重之前，我们应该尽全力做好空气污染的防治工作。

（四）已有研究

目前有很多学者在我国空气污染的起因、现状、影响等方面有所研究，然而研究的目的不外乎是想提出更为有效、合理的空气污染防治策略。

有的学者提出了一种研究空气污染预报与控制的工具，即区域空气质量模式，它是通过建立数学模型描述大气污染物的物理化学性质，考虑大气污染物排放的时空规律，进而再现污染物在大气中输送、演变、清除等过程。

该模式的开发涉及大气动力学、大气物理学、大气化学、生态学、大气探测与遥感、污染控制论、数学、计算机和网络技术等诸多学科领域，是一项多学科交叉、复杂性和综合性很强的系统工程。

纵使有不少方法已经应用于空气污染领域，仍然有不少学者都忽略了聚类方法的巨大作用。

毋庸置疑，聚类方法在对我国空气污染现状进行分析的过程中起到了关键的作用。

基于上述背景，本文在对我国空气污染区域的划分过程中，采用了聚类方法，科学、合理的将污染程度相似的地区归为一类，为了解我国空气污染现状提供可靠的信息。

二.聚类分析的相关方法

聚类是一种应用非常广泛的数据分析方法，它是统计学的一个分支，目前在诸多领域，包括数据挖掘、图像处理、市场研究等，都能凸显出其重要性。

聚类是将一个对象的集合分成不同的类，从而描述数据。

通过这种方式，人们能够将密集的和稀疏的区域区分开来，从而发现全局的分布模式，以及数据属性之间有趣的相互关系。

很久以前人们就对聚类方法有所研究。

传统的聚类方法主要是基于距离的聚类，例如欧氏距离、切比雪夫距离、马氏距离[1]等。

在今天，聚类分析也是数据挖掘和知识发现领域中的重要课题。

迄今为止，人们已经提出了许多数据聚类的算法，试图解决各种领域的聚类问题。

从目前来看，对数据挖掘中聚类方法的研究大都集中于计算机科学领域，更多注重聚类算法的研究，或者对现有聚类方法进行算法上的改进，而很少真正从统计学角度出发对数据挖掘中的聚类问题进行深入分析。

若尝试从统计学视角出发，以统计理论为基础，以统计方法与算法相结合为基本思路，将一些现有的优秀统计方法，如因子分析、对应分析等引入数据挖掘领域，则能够使其应用于海量数据的聚类分析。

（一）聚类分析的基本概念

聚类是指将一群物理的或抽象的对象，根据它们之间的相似程度，分为若干组，并使得同一个组内的数据对象具有较高的相似度，而不同组中的数据对象则是不相似的。

一个聚类就是由彼此相似的一组对象所构成的集合。

在很多应用中，我们可以把同一个类的数据对象当做一个整体来处理。

聚类的严格数学描述如下：

假设被研究的样本集为

，类

定义为

的一个非空子集，即：

，且

聚类就是满足以下两个条件的类

，

，…，

的集合：

（1）

…

（2）

（对任意

）

由第一个条件可知，样本集

中的每个样本必定属于某一个类；由第二个条件可知，样本集

中的每个样本最多只属于一个类。

（二）几种主要的聚类方法

如今各种各样的聚类方法层出不穷，我们在选用聚类方法时也会依据不同的标准，例如数据的类型、数据的大小等等。

目前主要的聚类方法有：

划分的方法、层次的方法、基于密度的方法、基于网格的方法等。

2.2.1划分的方法

划分的方法是指将一个给定

个数据对象的数据集合，构建数据的

个划分，每个划分表示一个聚类，这

个分组必须满足：

每个组至少包含一个对象；每个对象必须属于且只属于一个组。

给定要构建的划分的数目

，划分方法首先创建一个初始划分，然后采用一种迭代的重定位技术，通过对象在划分间的移动来改进划分[3]。

好的划分的一般准则是：

同一分组中的距离越近越好，而不同分组中的距离越远越好，即使得下列的准则函数最小：

上式中

是类

的均值，

是数据空间中的数据对象。

属于该类的聚类方法有k-均值（k-means）算法、k-中心点（k-medoids）算法、PAM、CLARA、CLARANS等。

2.2.2层次方法

将给定的数据对象集合进行层次的分解，这就是层次聚类法。

我们可根据层次分解的形成方式不同，把层次方法分为凝聚的和分裂的。

凝聚的方法首先把每个对象作为单独的一个组，然后相继地合并相近的对象或组，直到所有的组合并为一个（层次的最上层），或者达到一个终止条件；分裂的方法首先把所有的对象置于一个聚类中，在每步迭代里，一个簇被分裂成更小的簇，直到最后每个对象在单独的一个簇中，或者达到一个终止条件[4]。

层次方法的缺陷在于，执行合并或分裂的操作不能被撤销。

这个严格规定是有用的，由于不用担心组合数目的不同选择，故计算代价会较小。

不过，该技术的一个主要问题是它不能改正错误的决定。

我们可以通过两种方法来改进层次聚类的结果：

一是在每层划分中，仔细分析对象之间的“联接”；二是把层次凝聚和迭代的重定位方法综合起来，先用自底向上的层次算法，再用迭代的重定位来改进结果。

层次方法包括BIRCH、CURE、ROCK、Chameleon算法等。

2.2.3密度方法

绝大多数划分方法是基于对象之间的距离进行聚类的。

这样的方法只能发现球状的簇，却在发现任意形状的簇上遇到了困难。

随之提出了基于密度的聚类方法，它的主要思想是：

只要邻近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类。

主要的基于密度的方法有：

DBSCAN算法、OPTICS算法、DENCLUE算法等。

2.2.4网格方法

基于网格的方法首先将数据空间量化为有限数目的单元，形成了一个网格结构，全部的聚类操作都在这个网格结构上进行。

这种方法的主要优点在于它的处理速度很快，且处理时间与数据对象的数目相独立，只取决于量化空间中每一维的单元数目。

有代表性的网格方法是STING算法，除此之外，CLIQUE算法和Wavecluster算法既是基于网格的，又是基于密度的。

（三）聚类方法的进一步分析和总结

以上我们将现有的主要聚类方法大致分为划分的方法、层次的方法、基于密度的方法、基于网格的方法四大类。

下面我们将从聚类标准、类的标识这两个角度对众多聚类方法进行更为全面和深入的分析与对比，以加深对聚类方法的认识。

2.3.1聚类标准

聚类分析的最主要的任务是建立数据对象之间以及类与类之间相似性的度量标准。

最常用的相似性标准包括：

以距离为标准、以密度为标准和以为标准。

1．以距离为标准

距离是一种最为简单、直观的聚类标准。

常见的数据对象之间距离的度量指标包括欧式距离、切比雪夫距离距离等。

以距离为标准的聚类方法只能建立在欧式空间上。

类间距离的度量广泛使用如下四种方法：

代表点距离：

平均距离：

最小距离：

最大距离：

上式中，用

表示类间距离，用

表示数据点之间距离，

和

分别是类

和

的代表点（或称“重心”）。

单一代表点的聚类方法（如k-means法和k-medoids法）通常使用代表点距离来度量类间距离。

平均距离、最小距离、最大距离的计算时间复杂度均为

，因此，直接使用这三种方式来度量类间距离时算法效率一般较低，唯一的例外是BIRCH方法，该方法借助聚类特征树来提高算法速度[5]。

用距离作为聚类标准比较直观且易于计算，但是对异常点通常比较敏感。

所以，它们经常会通过引入某项技术来克服异常点的影响。

例如，k-medoids利用中心点而不利用均值作为类的代表点，从而降低了异常点的影响；CURE通过调节“收缩因子”，对多个代表点进行收缩处理来减少对孤立点的敏感度[6]；BIRCH通过控制子类的直径来控制孤立点的影响。

2．以密度为标准

以密度为标准的聚类方法也只能建立在欧式空间上。

相对于以距离为标准，以密度为聚类标准的最大优点就是可以发现任意形状的类，并且能够有效地消除噪声。

以密度为标准的聚类方法中，数据点之间相似程度的判断标准是它们是否属于同一个连续的密集区域，同属于一个连续密集区域的数据点被归为一类。

根据密度计算方式的不同，以密度为聚类标准的方法又可以进一步划分为三类：

基于网格的方法、最近邻方法和基于密度函数的方法。

基于网格的方法通过网格内数据对象的数量来计算类的密度。

通过这种方法得到的密度仅仅是真实密度的近似，从而会降低聚类的精确度。

STING、Wavecluster和CLIQUE方法属于这一类。

最近邻方法把一定半径内最近邻的数据对象的个数是否超过临界值作为判断密度是否足够高的标准。

DBSCAN和OPTICS都属于这一类。

基于密度函数的方法利用密度函数的大小来表示类的密度，并且通过寻找密度函数的局部最大值精确地确定类。

这类方法包括DENCLUE等。

3．以为标准

以为标准的聚类方法的目标是把具有更多的数据点聚为一类，即其相似性度量采用的是的数目[7]。

这类方法一般都把模型建立在一个稀疏图上，然后依据图中的信息进行聚类。

此类方法的代表是ROCK和Chameleon。

以为标准的聚类方法可以建立在任意空间之上。

除此之外，由于在高维空间中距离和密度的度量常常失效，此时，以为标准的方法就是一

展开阅读全文