空间数据分析模型Word文档格式.docx
《空间数据分析模型Word文档格式.docx》由会员分享,可在线阅读,更多相关《空间数据分析模型Word文档格式.docx(35页珍藏版)》请在冰点文库上搜索。
在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。
在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。
空间数据分析和空间统计分析是建立空间模型的基础。
7.3空间数据分析的一些基本问题
空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。
这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。
传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003)。
7.3.1空间自相关
空间自相关是空间位置上越靠近,事物或现象就越相似,即事物或现象具有对空间位置的依赖关系。
如气温、湿度等的空间分布均体现了与海陆距离、海拔高程等的相关性。
如果没有空间自相关,地理事物或地理现象的分布将是随意的,地理学中的空间分异规律就不能体现出来。
空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。
因为传统的统计学方法的基本假设就是独立性和随机性。
为了分析具有空间自相关性的地理现象,需要对传统的统计学方法进行改进与发展,空间统计学就应运而生了。
如果我们想确定某个位置测定的属性值是否合适,自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。
自相关有三种:
正自相关,负自相关和无相关(零自相关)。
正自相关是最常见的,指的是附近的观察值很可能是彼此相似的;
负自相关较少见,指的是附近的观察值很可能是彼此不同的;
零自相关指的是无法辨别空间效应,观察值在空间上似乎是随机变化的。
区分这三种自相关是统计方法正确应用的前提。
7.3.2可变区域单位问题
空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。
大区域的数据可能来自小区域详细数据的统计汇总。
以国家级人口普查数据的统计汇总为例,人口调查以户为单位进行,而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。
汇总单位与所研究的现象没有任何关系,但是汇总单位影响着由基层单位产生的统计结果。
统计汇总的区域层次不同,统计结果间的关系也就不同,这就产生了可变区域单位问题(modifiablearealunitproblem,MAUP)。
如果在特定的研究中指定了不同的空间单位,观察到的格局和关系可能有很大的差异。
这个问题可以参考图7.1。
图中使用了横向和纵向两种不同的汇总方法,形成了两种不同的回归分析结果,由此说明汇总单位对回归方程和确定系数的影响是很明显,回归关系通过汇总得到了加强。
事实上,利用同样的数据通过不同的汇总方式可以使得相关系数在-1和1之间任意变化。
由汇总单位产生的影响有两个。
第一个影响与分析的空间范围和汇总效应有关。
汇总之后的平均值更接近于回归线,使得散点图的结果更接近于线性,导致相关系数增加。
一般通过汇总往往产生更好的拟合结果。
第二个影响是不同汇总方法得到的结果实质上是不同的。
图7.1可变区域单位问题
7.3.3生态学谬误
可变区域单位问题与更一般的统计问题——生态学谬误相联系。
当特定汇总层次的观察值之间的统计关系假定可以接受,然后在更细的层次接受同样关系的时候,就产生了这个问题。
例如,在国家这个层次上,我们可能看到收入和犯罪之间有强烈的关系,即低收入往往伴随着高犯罪。
但是,如果我们据此认为低收入的人更可能干坏事,那就犯了生态学谬误的错误。
事实上,对于这样的数据,有效的精确的说法是:
低收入国家倾向于经历较高的犯罪。
是什么导致了这些观察到的现象,可能有很大的差异:
有可能是低收入地区治安很差,夜贼很多;
或者是这些地区的人经常酗酒;
或者根本就与收入没有关系。
重要的是,高层次汇总数据中出现的关系应该在底层汇总数据中重现并得到解释。
这个问题很普遍。
如果你关注新闻,在每天的日常生活或媒体中都可以发现生态学谬误。
犯罪率和死刑,枪支控制与关押率,车祸与车速限制等。
不幸的是,生态学谬误在学术界也不少见。
这个问题经常发生,其根本的原因可能是为了简化解释。
事实上,特别在人文地理中,事情很少这么简单。
生态学谬误和可变区域单位问题都要注意的是:
统计关系会随着汇总层次而发生变化。
7.3.4空间尺度
进行空间分析时,必须考虑空间尺度问题。
不同对象的表现需要的不同尺度,例如,在大陆尺度,城市用点来表示。
在区域尺度,城市用面来表示。
在局部尺度,城市成为复杂的点、线、面和网络的集合体。
研究对象的空间尺度影响空间分析。
因此,应当选定正确的或合适的空间尺度。
7.3.5空间非均一性和边界效应
区分空间分析与传统统计分析的重要标志是空间的不均一性。
例如,搜集到城区犯罪位置的数据,并用点在地图上标绘出来,就能可视化地表示犯罪的空间分布规律。
在居住区和工作密集的地方,犯罪会有明显的聚集性,在公园或道路的交叉口,可能会出现空缺。
这些聚集或空缺只是城市内部不均一性的一个结果。
类似的问题是考虑疾病发生率的时候,必须考虑从事高风险工作的人所在的位置。
目前,处理这些问题的方法还很少。
边界效应是不均一问题的一个特殊类型。
边界效应问题是指在研究区的中心位置,各个方向上的观察值相接近;
在研究区的边界,只有研究区内的观察值才是相接近的。
因此,确定适当的边界才可能反映数据的真实性。
7.4空间数据的关系
空间数据中蕴涵了丰富的信息,本章仅考虑空间数据的位置属性所能提供的信息。
重要的空间概念是:
距离(distance)、邻接(adjacency)和交互(interaction),与此密切相关的术语是近邻(neighborhood)。
在空间数据分析中,我们不仅对属性数据的均值、方差等进行分析,也对空间上相联系的实体的分布进行分析。
空间分布指的是空间实体之间的关系,可以通过距离、邻接和交互分析,获得对空间关系的认识。
7.4.1距离
在空间数据中,距离是空间实体间的直线距离或球面距离。
空间数据中的距离不同于数学上的距离(数学上的距离值两个变量/样本之间的距离,参阅模糊数学一章)。
在小的地区(小尺度的研究),可以忽略地球曲率的影响,通常使用欧氏距离。
对于空间上的两个点i,j,其坐标分别为(xi,yi),(xj,yj),那么两点之间的直线距离为:
在较大的区域(大尺度研究),距离的计算要考虑地球的曲率。
除了直线距离外,实际应用中也可按照道路、铁路、河流或路网来计算距离;
也可按照消耗的时间来计算距离。
7.4.2邻接
邻接可以认为是名义的、双向的相等的距离。
两个空间实体,或者相邻或者不相邻,没有中间状态。
确定相邻有多种方式。
最简单的确定方式是,如果两个实体在指定的空间距离内,那么它们是相邻的,否则不相邻。
类似的,对于任一实体,确定出与其最相邻的其他实体。
我们也可以认为只有最邻近的实体才是相邻的。
与距离一样,对邻接的概念也可以进行扩展。
邻接的实体不一定是相近的。
例如,就机场而言,在考虑上海、北京和莫斯科机场的邻接关系时,可以认为上海机场与北京机场、北京机场与莫斯科机场是邻接的,但上海机场与莫斯科机场则不邻接的。
邻接的概念主要应用在空间自相关分析、空间插值和网络分析中。
7.4.3交互
交互可以认为是距离和邻接的综合,它来自于一个基本的想法:
近处的事物关系更密切。
从数学上讲,可将两个空间实体之间的交互度表示为0(无交互)和1(高度交互)之间的数。
邻接也可以用类似的方式来表示,因为邻接是双向的。
在空间分析中,典型的交互可用距离倒数加权来定义:
其中,w是距离为d的两个实体i,j之间的交互权重。
k控制着权重的变化率。
距离越近,权重越大,交互越强。
通用的交互计算中使用两个实体的属性值,例如人口的引力公式为:
其中,pi,pj是i,j两地的人口数量。
此外,也可以在公式中加入面积来定义两个区域单位间的交互。
除了空间距离外,也可以使用其它的距离定义。
例如,可以使用两个国家的贸易量来定义交互程度。
7.4.4近邻
近邻有多种表达方式。
例如,特定空间实体的近邻是与该实体邻接的其他空间实体的集合,此时,近邻依赖于邻接的定义。
此外,可以不考虑邻接性,将近邻定义为空间上相联系的区域,此时则需要使用距离的概念。
近邻的概念经常被使用,主要是由于空间分布上邻近的区域更为相似。
这是一种内部相似,不同于周边区域。
例如,考虑海拔高度,山是一种近邻,其周围的海拔都较高。
图7.2进一步揭示了这四个概念。
左上角的图指明了研究区内A到其它点的距离。
一般而言,总是可以确定两点之间的距离。
在右上角的图中,按照距离指明了与A邻接的两点E和F。
这种邻接可以通过多种方法来定义。
例如,以50米内为邻接的距离。
注意,这种定义意味着D没有邻接的对象。
我们也可以定义最近的对象是邻接对象,这可以保证所有的对象都有两个邻接对象,虽然它同时意味着邻接不再是对称关系。
例如,此时,D与E邻接(最近的是C和E),但E并不邻接D(与E最近的是A)。
在左下角的图中,使用线宽指明A与其它对象的交互作用强度。
这里,交互是距离的倒数,所以A与E交互作用强。
在右下角的图中,给出了对象A的两个可能的近邻,曲线内是与A邻接的对象,包括了A,E和F。
另一个可能的近邻是带阴影的多边形,该空间也接近于A。
图7.2距离、邻接、交互和近邻的概念
7.5空间自相关分析
空间自相关分析包括全程空间自相关分析和局部空间自相关分析两部分(GetisandOrd,1996),自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。
空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。
全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。
局部空间自相关分析用来分析在特定的局部地点指定的属性是否具有自相关性。
具有正自相关的属性,其相邻位置值与当前位置的值具有较高的一致性。
空间自相关分析,当前常用的参数有三个,即Moran’sI,GearyC和G统计
7.5.1Moran’sI参数
Moran’sI是应用最广的一个参数,可用来进行全程空间自相关分析和局部空间自相关分析。
全程空间自相关分析参数的定义是:
Moran’s
局部空间自相关分析参数的定义是:
其中:
n是观察值的数目,xi是在位置i的观察值,Zi是xi的标准化形式。
,
{wij}是对称的二项分布空间权重矩阵,在以样点i为中心、距离为d的范围内,取值为1,否则取值为0。
Moran’sI值越大,表明数据正的空间相关性越强。
7.5.2GerayC参数
GerayC参数用来分析局部空间相关性:
作变换,C=1-C(d),C值大于0,表明正值四周为高值,小于0,则为低值,0则为无聚集特征。
7.5.3G统计量
G统计量由Ord和Getis1992年提出,1994年和1995年做了部分的修改,用来分析局部空间自相关性。
空间统计量Gi(d)定义为:
=Wi/(n-1),
;
.
为了便于解释,定义Gi(d)的标准化形式为:
i≠j,
各变量的含义同上。
模拟表明(Ord和Getis1994),在原假设xi周围不存在空间聚集的条件下,G的分布接近于正态,所以,经常借助于正态分布检验G值的显著性。
对于不同的观察值N,在不同的显著性概率(水平)下G值各不相同,例如,在0.1的显著水平下,40个样本对应的G值为2.79,100个样本对应的G值为3.07。
检验显著的G值说明位置i周围是较高的数据,即数据具有空间上的聚集性。
7.6空间变异分析
7.6.1空间变异
空间变异指研究对象在空间上的变化,它是地理学研究的基本问题。
空间变异的研究可借鉴空间分析的有关方法,通过对地理系统的特征进行分析,了解地理系统在空间上的分布和演替规律。
图7.3指导传统地理制图的概念模型
空间变异是比较复杂的。
降水、风化、侵蚀、堆积、人类活动以及地球构造运动等地球的内外营力造成了物质组成的空间变化,是导致空间变异最基本的原因。
同时,地理系统的不同属性随时间发生变化,具有不同的时间变异性,而且这种变异性有可能超过空间变异,从而增加了空间变异研究的难度。
早期研究中,人们考虑到空间变异的复杂性以及有效研究工具的缺乏,往往通过定义系统分类单元和均质制图单元对空间变异进行系统分析,并假设所定义的空间单元由空间由均质的(homogeneous)或接近均质的块段构成,所有重要的变化都发生在边界处(图7.3)同样,如果研究性质的观察值被直接地划分为名义上的等级(例如植被中盖度、土壤中的质地),那么就很难考虑渐进的、单元内的变异。
自20世纪70年代以来,随着研究的深入,人们逐渐认识到了空间的一些特性。
大量的实验结果表明存在有不同尺度的空间变异。
比如土壤的孔隙度,不仅随地点变化,还随采样样本的大小变化。
极小空间范围的变异或时间变异也可能导致不可预料的属性测量值较大幅度的变化。
大尺度的遥感研究,特别是使用红外辐射研究裸地可以清楚地表现出地表的变异性。
探地雷达研究则表明地表在垂向短距离内也可以急剧地变异。
空间变异的程度依赖于过程的类型和它们在空间和时间中的协同关系。
7.6.2空间变异模型
考虑到地理过程对空间格局的影响,依据研究对象的空间分布形式划分出两种变异理论模型。
7.6.2.1常规模型
常规模型为突变模型(图7.4a)。
假定属性在边界处突然变化,但边界之内属性变化很小。
图上单元由具有相似性质的个体构成,代表均质的范围,至少在分类系统的最低分类单位水平上相同(地图上可辨别的最低分类单位与地图的比例尺有关,即与空间尺度有关)。
边界可以通过采样来确定,或者直接地通过空间特征(如坡形、坡位、植被变化)来确定,或者通过航片、卫片上的相关特征来确定。
7.6.2.2
连续模型
连续模型(图7.4b)假定属性在空间逐渐变化,而且这种变化可以用数学模拟来逼近。
常规模型和连续模型在实际应用中是不同的。
以污染为例,如果污染水平高于某一临界值,按照常规模型,就需要对整个地区进行净化处理,这无疑是十分昂贵的。
按照连续模型的观点,污染常常是非均质的,临界位置上的采样点在污染水平上差异甚大,可以采取统计方法来估计区域内各个地方受污染的程度,这样就可以有针对性的进行治理,从而节省大量资源。
变异模型可以通过确定性方法或随机方法来逼近。
确定性方法不承认属性观测值的不确定性,其结果是,连续模型认为性质的变化是一个平稳的可微分过程,而常规模型认为地理现象没有内部变异。
随机方法承认地理现象是一个复杂的自然体,必须通过采样方法来研究,我们只能估计其属性的量值而且这些估计受制于概率规则,即任何估计的准确性都只具有某种概率(图7.4c、d、e、f)。
用统计学语言来表达就是,每一个属性Ai在每个图上单元j中的数值都可以估计为Aij±
e,其中e是一个正态分布的随机误差。
上述两种模型的进一步发展是不同类型的空间变异可以在不同尺度上发生(多尺度模型)。
实际上,空间变异研究中存在两种明显不同、但原理上互相联系的观点。
一种是实用地、当然地理解空间变异方式,认为观察点位的数据可以外推到更大的区域。
第二种是科学探求式的,认为形成过程导致自然和人为的分布形式的多样性。
但无论如何,过程的深入理解都有助于对空间分布形式作出合理的推断。
图7.4空间变异的假想模型
7.6.3空间数据插值
空间数据插值是进行数据外推的基本方法。
常用的插值方法有:
1)距离倒数插值(inverse
distanceweighted,IDW);
2)样条插值(spline);
3)三角网插值;
4)最小曲线法插值;
5)等方位加权法插值;
6)多项式拟合(趋势面分析)插值;
7)克里格插值 (Kriging)。
基于样本值所代表的现象和样本点的空间分布方式,插值方法将生成与实际值相关性较好的预测值。
不同的插值方法对于如何获得最佳估计值都给予了一定的假设,但无论你选哪种插值方法,样本点越多,样本点分布越均匀,插值结果越接近实际值。
7.7趋势面分析
趋势面分析的基本功能,是把空间中分布的一个具体的或抽象的曲面分解成两部分:
一部分主要由变化比较缓慢、影响遍及整个研究区的区域成分组成,称为趋势;
另一部分是变化比较快,其影响在区内并非处处可见的成分,称为局部异常。
趋势面分析的实质是进行数据的拟合,它对因变量无特别的要求,自变量一般总是由地理坐标(平面坐标,在特别的情况下,也可以用经纬度)组成。
在三维趋势面分析中,则增加了高程或深度坐标值。
趋势面分析实际是回归分析的一种特殊应用,或者说是回归分析的一个变种。
两者在数学原理、计算步骤等方面几乎完全相同,但是两者在应用上有较大的区别。
回归分析的目的是研究变量之间的关系,并在此基础上进行预报或建立回归模型,趋势面分析是要分离出区域趋势和局部异常两个成分。
在实际应用中,由于多项式函数对曲面拟合能力比较强,又由于地理上对拟合及分离的精度要求并不高,才使得趋势面分析法得到广泛的应用。
从统计学中知道,回归分析有几个重要的假设条件,只有当这些条件都基本上得到满足之后,分析的结果在数学上才是精确可靠的,否则就可能产生虚假的结果。
对于这些前提假设,趋势面分析可以严格地加以考虑,这时趋势面分析实际就成为回归分析,分析的目的,则是探讨因变量和地理位置的关系。
当趋势面分析不考虑,或部分地考虑这些前提假设时,分析目的就有别于回归分析了。
在趋势面分析中,如果照搬回归分析的上述假设,可能一无所获,而使局部异常的识别或分离无法实现。
7.7.1狭义趋势面分析与广义趋势面分析
一般而言,趋势面分析基本上仅限于Grant和Krumbein提出的多项式趋势面分析法,即狭义的趋势面分析。
由于趋势面分析的根本目的是要将观测面所包含的信息分解为趋势和局部异常两个成分,而具有类似的或相同功能的方法还有许多,如滑动平均、滑动中值、克里格法、谱分析、自协方差分析及空间滤波等。
这些方法不同于多项式趋势面法,称之为广义的趋势面分析法。
广义趋势面分析中,各种方法本来的功能并不仅仅局限于分离趋势和局部异常,不同的方法各有其特殊的性质。
如滑动平均法主要是用以消除随机干扰;
克里格法是要在观测数据的基础上,对所分析的变量进行插值,并给出相应的估计误差;
空间滤波则是根据情况,由分析者指定,分离出一定波长范围内的曲面组分。
这些方法,或者要清除曲面中的一些组分,或者只提取曲面中的某些组分,和趋势面分析的要求是重叠的或者是相容的。
因此,在一定的条件下,它们可以起到趋势面分析的作用。
由于这些方法并非专用于分离趋势和局部异常,故若作为趋势面分析工具使用时,有的效果较好,如空间滤波,而多数的效果不如多项式趋势面分析方法。
对趋势面分析法,虽然人们都把它归入统计学的范畴,但它在许多方面又不能严格地满足统计上的条件,因此只能认为是一种简单的断面拟合。
趋势面分析的结果表现为趋势图和局部异常,人们从中可以解读出有意义的地理信息,而对趋势面方程及其系数,极少有人去探求其特定的含义,不同的函数可以产生几乎相同的结果,也在一定程度上使得有关参数的物理意义难以明确。
7.7.2趋势面模型
从理论上说,属性数据的空间变化可以分解为三个部分;
1)区域趋势;
2)局部异常;
3)随机干扰(即随机噪声)。
所谓区域趋势是指遍及全区的、规模较大的地理过程的反映。
局部异常是由规模比研究区小的地理过程所产生的,但其规模又至少大于两个观测点之间的距离。
局部异常的规模和观测点间距离的这种关系,一般在观测点为规则网格时才是明确的。
随机干扰,一般认为是由抽样误差和观测误差组成,不包括系统误差。
随机干扰的影响范围很小,它仅限于单个观测点的控制区内,或者说其规模小于相 邻两观测点之间的距离。
根据上述理论模型,有
观测面=区域趋势+局部异常+随机干扰
每一具体的属性值,都可以认为包含了上述三种成分。
趋势面分析的目的,是如何对这三种成分进行有效的分离。
随机成分的分析要求有重复抽样的观测数据,这在地理工作中往往难以满足。
因此在实际工作中,往往并不要求分离三种成分,而只要求分离其中的两种成分。
这样,理论模型在实际应用时就成为:
观测面=区域趋势+局部异常
观测面=区域趋势+随机干扰
在上式中,局部异常成分必然包含随机干扰成分,只不过异常成分处于主导地位,而随机成分所占比重很小,以至于可以忽略不计。
同理,随机干扰仍可能包含有局部异常成分,只是它相对于随机成分来说规模要小。
由于随机成分有可能包含有异常成分,因此它有时仍可以有一定的地理意义。
在具体工作中,随机成分里是否包含有局部异常成分,通过将分离开的各个成分分别作图(一般只作等值线图),进行对比,然后作地理解释后才能确定。
趋势面分析结果可以使用下式来说明拟合的程度:
其中,n为样点数,z是属性值,U是回归平方和,S是离差平方和,c是拟合程度。
c值表明了趋势面反映原始数据的程度。
当c=100%时,则趋势值在所有的样点上与原有值相等,但这种情况很少出现,从趋势面分析的角度看失去了分解的意义。
c接近于0,说明拟合程度低。
如果设W为剩余平方和,即
可以用F分布来检验结果的显著性。
F统计量为:
其中m是趋势面中多项式的项数(不包括常数项)。
在空间数据分析中,由于目的是分析趋势和异常,所以,并不追求高的拟合程度。
一般的,拟合程度达到60-80%,阶数在1-4之间就可以满足要求了。
7.7.3趋势面分析实例
1.目的和地区概况
利用1:
2.5万地形图对王家坡谷地形态进行分析,并与我国西部冈底斯山脉南坡的一条古冰川谷地进行形态对比,探