空间统计与空间数据挖掘之地统计分析doc.docx
《空间统计与空间数据挖掘之地统计分析doc.docx》由会员分享,可在线阅读,更多相关《空间统计与空间数据挖掘之地统计分析doc.docx(6页珍藏版)》请在冰点文库上搜索。
![空间统计与空间数据挖掘之地统计分析doc.docx](https://file1.bingdoc.com/fileroot1/2023-5/25/fe1efc3e-9d38-4180-9fc0-e028c3e82d3f/fe1efc3e-9d38-4180-9fc0-e028c3e82d3f1.gif)
空间统计与空间数据挖掘之地统计分析doc
空间统计与空间数据挖掘之地统计分析
空间统计与空间数据挖掘之地统计分析地统计是统计的一类,用于分析和预测与空间或时空现象相关的值。
它将数据的空间坐标纳入分析中,以变异函数为主要工具,研究那些分布于空间上既有随机性又有结构性的自然或社会现象的科学,接下来将介绍地统计研究的工作流程和主要步骤,并结合ArcGISGeostatisticalAnalyst工具进行实践演示。
地统计是用于分析和预测与空间或时空现象相关联的值得统计数据类。
利用GIS工具可以构建使用空间坐标的模型。
这些模型可以应用于各种情况并通常用于生成未采样位置的预测,也可以用于生成这些预测的不确定性的度量值。
一般情况下,地统计研究的流程为:
第一步仔细检查数据。
第二步构建地统计模型,根据研究目的和数据集要素的不同,建模过程的步骤会有些差异。
在这一阶段,对数据集进行严密地探索并收集信息,扩增对所研究对象的先验知识,这将决定模型的复杂程度和内插值的准确性,以及不确定性的度量值的准确性。
第三步将所建模型与数据集结合来生成感兴趣区域内所有未采样位置的内插值。
最后模型的输出应该经过检查,确保内插值和相关的不确定性的度量值是合理的并与预期相匹配。
我们继续以上文中提到的某市区垃圾站数据为例,结合GIS工具具体介绍如何利用地统计建模插值。
1探索性空间数据分析19世纪60年代的Tukey面向数据分析的主题,提出了探索性数据分析(EDA,exploratorydataanalysis)的新思路,解决了传统统计分析中数据不能满足正态假设,基于均值、方差的模型在实际数据分析中缺乏稳定性的问题,并且满足了对海量数据进行分析的要求。
EDA的特点是对数据来源的总体不作假设,并且假设检验也经常被排除在外。
这一技术使用统计图表、图形和统计概况的方法对数据的特征进行分析和描述,技术核心是“让数据说话”,在探索的基础上对数据进行更为复杂的建模分析(王远飞,何洪林,2007)。
在EDA的基础上衍生而出的是探索性空间数据分析(ESDA,exploratoryspatialdataanalysis),是EDA在空间数据分析领域的推广。
在使用插值方法之前,应该使用ESDA工具浏览数据。
此工具能使我们更深入地了解数据并为插值模型选择最合适的方法和参数。
例如,如果使用普通克里金法生成分位数图,应该事先检查数据的分布,因为是在数据是呈正态分布的前提下才能采用这一方法,如果数据不是正态分布的,应该在插值模型中包含数据变换的操作。
检测数据的空间趋势也是ESDA的一大功能。
ESDA环境允许用户用图形的方法研究数据集,从而能更好的理解所要研究的数据集。
每个ESDA工具都对该数据给出一个不同的视图并在单独的窗口中显示出来。
这些不同的视图包括直方图(histogram)、voronoi地图、正态QQplot分布图、趋势分析(trendanalysis)、半变异/协方差函数云等。
对于我们接下去将要介绍的克里格插值方法,如果数据的分布近似于正态分布,使用克里格插值法时将会收到更好的效果。
利用直方图与正态QQPlot分布图可以检验数据分布是否呈现正态分布。
克里格插值方法是建立在平稳假设的基础上,这个假设要求分布中的数据值具有相同的变异性。
而实际情况却是当值增加时,其变异性也增加。
需要通过一些数据变换方法让数据变换到正态分布,并满足相同变异性的假设(吴秀芹,2007)。
而最常用的数据变换方法包括Box-Cox变换、对数变换、反正弦变换。
通过观察均值和中值可以确定分布的中心位置,一般来说,如果数据集的中值和均值非常接近,偏度为零,峰度接近于3,则可以判断其分布近似于正态分布。
数据变换中应当注意的是,在对一个数据集进行数据变换后,在生成预测表面时必须进行还原变换,还原变换将给出一个具有近似克里格标准差的近似无偏估计。
在ArcMap中可以利用直方图和QQPlot图直观地检验数据分布的形状,并且当数据分布不理想时,可以通过上文提到的数据变换方法进行变换。
在进行探索性分析时,除了总览数据分布与数据变换,另一大功能便是识别异常值。
全局异常值是相对于数据集中的所有值具有异常高值或低值的样本点;而局部异常值是指对于一个样本点,其取值范围对于整个数据集来说是处于一个正常的范围内,但对于与其相邻的周边的样本值相比呈现异常情况。
从数据集中识别出异常值具有十分重要的意义,一方面,异常值可能是空间现象分布中的异常情况,另一方面,则可能是单纯的错误数据,均需要引起特别注意,进行变换处理或剔除。
单数据集方法直方图(histogram)1.统计信息直方图可以用于观察数据集的总体分布并用于汇总相关的统计数据,比如最大最小值、平均值、标准差、中位数等。
如下图所示,可以看出,对于垃圾站的日处理量这个属性并不是呈典型的正态分布,并且在右上角的图例中可以看到一系列常规的统计指标,用于参考。
2.数据分布与变换在ArcMap中利用直方图工具可以直观地检验数据分布的形状。
如下图所示,数据并没有呈现典型的正态分布,我们可以通过数据变换功能十分便捷的对垃圾站数据进行变换,期望能得到近似的正态分布,分别进行对数变换以及Box-Cox变换(参数设为0.3)。
可以看到,进行对数变换的结果也不是特别理想,而进行Box-Cox变换则得到了相对近似的正态分布。
3.异常值识别利用直方图可以很方便直观的筛选出数据集中的异常值,通过探索性分析工具得到数据集的直方图之后,选择直方图尾部的样本点,这些样本点往往会呈现异常高值或低值。
当然,通过这样选取的异常点十分不精确,需要进一步的分析验证,才能决定是数据异常还是单纯的数据错误。
如下图所示,选取直方图中的尾值,可以发现这些垃圾站点均为日处理量1000吨以上。
voronoi地图1.查看数据分布通过voronoi地图可以直观的观测数据集的空间可变性和稳定性。
如下图所示,基于市区内每个垃圾站点数据,相对应的生成了各自的voronoi多边形。
每个点对应的voronoi多边形的面积的倒数可以作为一个评价点局部密度的指标,还可以帮助我们判断点集的分布属于哪一种形式(随机分布或者集聚、规则分布)。
例如下图右下角,多边形面积小且数量较多,可以看到垃圾站点的分布相对集中。
2.查找异常值在查看VORONOI图时,不仅可以通过多边形的大小密度来识别样本值的总体分布情况,还可以根据其中一个多边形与相邻多边形的差异情况来识别研究对象中的异常值。
以上图为例,可以很容易找出颜色与周围多边形明显差异的样本点,查看其属性可知,该点所指示的垃圾站的日处理量为1500吨/天,远高于相邻的几个样本点的值,查看其它样本也可以同样得出此结果。
正态QQPlot分布图该统计量用于评估所研究的数据集是否表现为正态分布。
简单来说,即是使用研究的对象数据集与正态分布的标准数据集对比得出差异,用于观测数据集的相关特征。
如下图所示,垃圾站点的经度属性并非典型的正态分布数据,但数据点与正态分布线相对接近,从统计学意义上来说,是有研究意义的。
同直方图分析方法一样,QQPlot图也可以对统计分布结果做Box-Cox变换、对数变换已经反函数变换。
如下图所示,对垃圾站日处理量数据,在正态QQPlot图的基础上,进行对数变换和Box-Cox(参数设置为0.3)变换,前者变换的结果不如后者理想.趋势分析(trendanalysis)用于查看和检查数据集中的空间趋势。
同样以垃圾站数据为例,对于垃圾站的日处理量这一属性,图中底面一根垂直的黑色竖线代表一个样点,蓝色和绿色分别代表两条趋势线。
如果经过投影点的趋势线是平的,那么说明不存在趋势。
从下图可以看出垃圾站日处理量的属性存在一定的趋势,但是具体的趋势需要更深入的分析才能得出。
半变异/协方差函数云1.查看数据分布利用半变异/协方差函数云可以计算数据集中的空间依赖性。
2.查找异常值如果数据集中存在具有异常高值的全局异常值,那么这些异常值在半变异云中也将具有高值,可以结合半变异函数云图与直方图,筛选出数据集中比较突出的异常值,在进行检验之后可以进行错误值的校正或直接剔除。
需要注意的是,半变异函数中存在两个点的主要地层,如果选取上层地层中的点,可以发现所有高值来自与单个位置的配对,可以说这些上层点都通过单个异常值配对创建,而下层点则是通过剩余的位置配对创建。
以上介绍的几种方法,每次可以用于分析一个数据集的探索性空间属性,接下来的两种方法可以对两个数据集之间的关系进行初步的探索。
双数据集方法普通QQPlot分布图普通QQPlot分布图用于评估两个数据集之间分布的相似程度,与前面的正态QQPlot分布图的绘制类似,不同之处在于,正态QQ分布是利用目标数据集与正态分布相对比得出,而普通QQ分布的对比数据集是另一目标数据集,如果两个数据集具有相同的分布,那么分布曲线将与45度对角线重合。
交叉协方差云交叉协方差云显示了两个数据集之间所有位置对的经验交叉协方差,并且将其作为两位置间距离的函数对其进行绘图。
交叉协方差云可以用来检查两个数据集之间空间相关的局部特征,并且能够用于在两个数据集之间的相关中查找空间平移,交叉协方差云的形式如下:
2空间插值确定性插值方法确定性插值方法以研究区域内部的相似性、或者以平滑度为基础,由已知样点来创建表面。
其中最具代表性的是反距离权重插值法,InverseDistanceWeighted,即IDW。
反距离权重插值法是基于相近相似原理,以插值点与样本点间的距离为权重进行加权平均,离插值点越近的样本点赋予的权重越大。
反距离权重插值法的一般公式如下:
地统计插值方法地统计插值方法中最为典型与常用的就是克里格插值法。
克里格插值法是以空间自相关为基础,利用原始数据和半方差函数的结构性,对区域化变量的未知采样点进行无偏估计的方法。
克里格插值法的一般实现流程如下:
1.检查所研究数据是否服从正态分布,如果不服从,需要通过以上介绍到的数据变换方法进行数据变换,以达到或接近正态分布。
2.根据数据自身特性选择合适的克里格方法。
3.计算样点间的距离矩阵。
4.计算样点间的属性方差并按距离进行分组。
5.根据分组,统计平均距离以及相应的平均方差。
6.通过工具软件获得方差变异云图以及经验半变异函数图。
7.拟合理论半变异函数图。
8.计算克里格系数并进行预测。
在克里格插值过程中,应该注意的是应该使样点数据尽量充分并符合前提假设,当样本点数足够多时,使用各种克里格方法的结果会基本相同。
不同的克里格方法有其是用的条件:
当数据服从正态分布时,选用对数正态克里格;若不服从简单分布时,选用析取克里格;当数据存在主导趋势时,选用泛克里格;当只需要了解属性值是否超过某一阈值时,是用指示克里格;当同一事物的两种属性存在相互关系,且一种属性不易获取时,选用协同克里格方法,它借助另一属性实现该属性的空间内插;当假设属性值的期望值为某一已知常数时,选用简单克里格;当假设属性值的期望值是未知的,选用普通克里格(汤国安,杨昕,2006)。
以下通过垃圾站点数据,对普通克里格方法进行实例介绍。
普通克里格方法是区域化变量的线性估计,它假设数据变化成正态分布,认为区域化变量Z的期望值是未知的。
插值过程类似于加权滑动平均,权重值的确定来自于空间数据分析。
ArcGIS中普通克里格插值包括创建预测图、创建分位数图、创建概率图和创建标准误差预测图四个部分。
第一步,选择ArcMap中的GeostatisticalWizard工具,在对话框中选择垃圾站数据,属性列选择垃圾站日处理量。
插值方法选择Kriging/CoKriging,进行下一步。
第二步,在弹出的对话框中,可供选择的克里格插值方法均一一列出,在此只以普通克里格方法为例,如需更换克里格插值类型,可以返回此步骤重新选择。
我们选择Ordinary,即普通克里格法。
在左下方可选择生成的表面类型,包括预测表面,,分位数图,概率图和标准误差预测图。
我们选择生成预测表面。
其他功能图只需重复此步骤操作即可,如下图所示:
第三步,生成半变异函数图并查看协方差云图。
第四步,确定邻域的搜索范围。
第五步,交叉验证。
在交叉验证的对话框中列出了对上述参数的训练数据模型精度评价。
符合以下标准的模型为最优:
标准平均值最接近于0,均方根预测误差最小,平均标准误差最接近于均方根预测误差,标准均方根预测误差最接近于1。
第六步,当将各参数值调整至最优之后,就可以生成最后的预测表面。
近期课程安排课程安排课程名称:
Arcgis应用教程与实践(32模式)品牌课程
时间地点:
2017年5月12日-5月15日西安课程安排课程名称:
Arcgis应用教程与实践(32模式)品牌课程
时间地点:
2017年6月16日-6月19日山东更多地理信息行业资讯关注公众平台目前100000人已关注加入我们