基于语义相似度的空间数据挖掘模型.docx
《基于语义相似度的空间数据挖掘模型.docx》由会员分享,可在线阅读,更多相关《基于语义相似度的空间数据挖掘模型.docx(9页珍藏版)》请在冰点文库上搜索。
基于语义相似度的空间数据挖掘模型
目录
摘要1
关键词1
Abstract1
Keywords2
引言2
1语义相似度2
2空间数据挖掘模型3
2.1空间数据挖掘概述3
2.2当前几种主要的空间数据挖掘模型4
3基于语义相似度的空间数据挖掘模型5
3.1语义相似度对数据的操作与处理6
3.2空间数据的挖掘方法7
结语7
参考文献7
基于语义相似度的空间数据挖掘模型
姓名:
***学号:
**********
学院:
城市与环境科学学院专业:
地理信息系统
指导老师:
***职称:
副教授
摘要:
本文在分析当前两大主流数据挖掘模型及语义相似度常用计算方法的基础上,论述了空间数据挖掘与语义相似度的集成模式,并结合语义相似度的计算方法和数据挖掘的现状,探讨了基于语义相似度的空间数据挖掘模型,并简要分析了该模型的各个模块和基于此模型的空间数据挖掘的过程。
关键词:
语义相似度;SDM;空间数据挖掘模型;GIS
ASpatialdataminingmodelbasedonsemanticsimilarity
Abstract:
Basedontheanalysisofthecurrenttwobigmainstreamcommonlyuseddataminingmodelsandsemanticsimilaritycalculationmethod,onthebasisofdiscussestheintegrationofspatialdataminingandsemanticsimilaritymodel,andcombiningthesemanticsimilaritycalculationmethodandthecurrentsituationofdatamining,discussedthemodelofspatialdataminingbasedonsemanticsimilarity,andthebriefanalysisofthevariousmodulesofthemodelandprocessofspatialdataminingbasedonthismodel.
Keywords:
Semanticsimilarity;SDM;Spatialdataminingmodel;GIS
引言
随着信息时代的到来,各种各样的信息飞速增长,在这个知识爆炸的时代,如何从浩如烟海的信息中找出对自己有用的信息并加以分析、利用,是目前摆在数据挖掘领域的主要课题。
数据挖掘从出现到现在只短短二十多年的时间,而空间数据挖掘则更年轻,但数据挖掘根据应用的具体需要而产生,因此一经出现就显示出强大的生命力。
传统的数据挖掘技术是基于数据仓库,这类数据仓库通常有上百个属性和数万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,同时也增加了不确定性和错误模式出现的可能性
。
语义相似度是指不同词语间的可替代程度,本文将在充分分析语义相似度和空间数据挖掘等理论的基础上,提出一个基于语义相似度的空间数据挖掘模型。
1语义相似度
语义相似度是指不同词语之间的可替代程度,国内学者刘群
等对语义相似度的定义是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。
即若两个不同词语在上下文中互相替换且不改变文本的句法语义结构程度的可能性越大,那么这两个词语的相关性越高,反之越低。
度量两个词语关系的另一个重要指标是词语的相关度。
词语相关度是指两个词语在同一语境共现的可能性,它反映了两个词语的相互关联程度。
可以认为,语义相似度反映概念之间的聚合特点,而词语相关度则反映概念之间的组合特点。
DekangLira认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),然后从信息论的角度给出了定义公式:
(1)
其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。
刘群、李素建
以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。
两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。
对于两个词语
,如果记其相似度为Sim(
),其词语距离为Dis(
),根据刘群、李素建的公式:
(2)
其中
是一个可调节的参数。
的含义是:
当相似度为0.5时的词语距离值。
词语距离和词语相似度是一对词语的相同关系特征的不同表现形式,如果两个概念之间的语义距离越近,就认为它们越相似
,因此二者之问可以给出一个简单对应关系:
(3)
其中,Dis(
)为树中
所代表的结点在树中的距离,k为比例系数。
一般地说,相似度一般被定义为一个0到1之间的实数。
特别地,当两个词语完全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0。
词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)或分类体系(Taxonomy)来计算,一种利用大规模的语料库进行统计
。
2空间数据挖掘模型
2.1空间数据挖掘概述
空间数据是和地理位置相关的数据,具有空间性、基础性、非结构性特征,在城市规划、资源管理、GIS空间分析等领域,空间数据是最主要的信息载体,目前对空间数据的获取、处理、管理、利用还存在许多尚未解决的问题,数据挖掘就属于在空间信息利用领域急需解决的问题之一。
空间数据挖掘就是在空间数据集合中发现知识,就是提取感兴趣的空间模式和特征、空间数据与非空间数据之间的联系、以及不是显式地存放在空间数据库中的其他数据特点。
空间数据挖掘能够从大型数据库抽取有用并且规范化了的知识,能够理解空间数据,发现空间和非空间数据的联系,构造基于空间知识的查询优化,重组空间数据库,抽取共同特征等
。
它广泛用于地理信息系统(GIS)、遥感遥测、图像数据库、医疗成像、机器人导航以及大量使用空间数据的其他领域。
空间数据发掘可用于游览空间数据库、理解空间数据、发现空间联系以及空间数据与非空间数据之间的关系,重组空间数据库,构造空间知识库,优化空间查询等。
2.2当前几种主要的空间数据挖掘模型
2.2.1OLAM模型
加拿大Simon大学教授Han.J.W
等在数据立方体的基础上提出多维数据挖掘的概念,其基本操作是将挖掘功能(关联、分类、聚类等)与OLAP的钻取结合。
在数据立方体中,数据挖掘可在多维和多层次的抽象空间中进行,利于灵活地挖掘知识。
OLAM模型建立在多维数据视图的基础之上,因此,基于数据立方体的挖掘算法是其核心所在。
数据立方体的计算与传统挖掘算法的结合使得数据挖掘有了极大的灵活性和交互性。
OLAM的整个体系结构分为4个层次:
数据存储层、多维数据库层、OLAP/OLAM层和用户接口层。
OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对数据立方体作一定的操作,然后将挖掘分析结果展现给用户。
2.2.2影响域模型
OLAM模型的不足之处是没有建立一个统一的模型,只是将数据立方体作为数据挖掘中数据的存储结构和计算基础,而没有涵盖问题的全部搜索空间,无法将OLAP与数据挖掘真正有机地结合在一起。
K.Parsaye把决策支持空间从应用层次上分成4个子空间:
数据空间、聚合(OLAP)空间、影响空间和变化空间。
其中,数据空间处理基于关键字的决策查询,最典型的是联机事务处理(OLTP)系统
;聚合空间对数据空间中数据元素进行聚合运算(如Sum,Average,Max,Min等),处理有关聚合运算的决策查询,典型的有联机分析处理和多维空间;影响空间处理逻辑性质的决策支持,能够提供比其它空间更为丰富的有用信息,这些信息可通过数据挖掘得到;变化空间负责回答某种变化的过程和速率问题。
K.Parsaye在决策支持4个空间概念的基础上提出影响域模型,对OLAP中数据立方体和星型模式的概念分别进行了拓展,以涵盖间题的整个搜索空间。
能够比较全面地反映多维数据挖掘的实质。
OLAP挖掘发生在由数据、聚合和影响空间形成的混合空间中,通过SQL引擎和OLAP/ROLAP引擎对数据空间和聚合空间存取。
3基于语义相似度的空间数据挖掘模型
用户需求是数据挖掘的驱动力,任何挖掘过程都是从用户的需求描述开始的,空间数据挖掘是一个对技术性、专业性要求都较高的处理过程,它不但需要领域专家的参与,还需要相关技术的支持。
空间数据挖掘也要把需求分析作为全部数据挖掘过程的一个重要部分。
数据挖掘是在数据仓库存储支持的基础上,进行的根据需求筛选数据的过程。
所以,综上所述,基于语义相似度的空间数据挖掘模型由需求分析模块,数据挖掘模块,原始数据支持模块三个部分组成,各个部分又包括一些具体分支和小系统、小模块。
如图1所示:
图1基于语义相似度的空间数据挖掘模型
在该模型中,空间数据挖掘过程主要分为两部分:
(一)利用语义相似度对数据的操作与处理功能,对目标数据提取,并进行预处理;
(二)对预处理后的目标数据进行挖掘,提取规则与知识。
3.1语义相似度对数据的操作与处理
对于本体的相似度有多种计算方法,我国学者孙海霞等在《基于本体的语义相似度计算方法研究综述》中总结了四种语义相似度计算方法,分别是基于距离的语义相似度计算,基于信息内容的语义相似度计算,基于属性的语义相似度计算和混合式语义相似度计算
。
这四种算法使用范围不同,效率也各有优劣,在确定目标领域本体的范围时,采用基于信息内容的语义相似度计算效率为最高。
这种算法的基本思想是:
(1)将要比较的两个概念词相关的词汇进行统计,如果他们之间共享的信息越多,那么他们之间的语义相似度就越大,反之就越小。
(2)我们将所有的本体概念用树的结构进行归纳,称为本体分类体系树。
该算法认为,每个概念子节点都是其双亲结点或祖先结点概念的细化和具体化。
因此,可以通过被比较概念词的公共父节点概念词或公共祖先结点所包含的信息内容来衡量它们之间的相似度。
语义相似度操作与处理的空间对象对应于地图图层的图元,语义相似度所支持的图元为点、线、区域以及标记。
语义相似度对空间对象的操作与处理也就是对图元所对应的空间数据与属性数据所进行的操作与处理。
在空间数据挖掘中,语义相似度对数据的主要的操作与处理如下:
3.1.1数据绑定与数据库访问
所谓数据绑定,就是将数据从数据源放人语义相似度的计算过程。
语义相似度的计算需从空间数据库中提取出不同数据源的数据,通过使用DataSets.Add方法编程来绑定数据,使外部数据源和地图建立联系。
这样就解决了空间数据挖掘中空间数据与非空间数据整合的问题。
3.1.2数据提取
由于数据挖掘是面向主题的,只需要从数据库中或通过数据绑定得到的数据集合中提取要挖掘的相关数据与字段,这样不仅可以提高挖掘算法的效率,同时也可提高挖掘结果的精度,避免不相关数据的干扰。
3.1.3数据分析与处理
在数据处理之前要先对数据进行分析,空间数据是以一种结构化的方式在空间数据库中存储的,语义相似度联系邻域本体,即某一领域概念和关系的总和,基于语义相似度的数据挖掘系统在处理这样的结构化信息时更有针对性。
语义相似度对数据的处理,可以有多种算法,例如基于属性的语义相似度算法,这种算法认为概念由属性表示其特征,概念之间的关联程度可以通过他们之间属性的相似程度来反映,它的基本计算方法是比较概念具有的特定属性的属性值。
相同属性的数目越多,相似程度越高。
利用基于语义相似度的此类方法可以对空间数据进行有针对性和高效率以及高精确度的处理。
3.2空间数据的挖掘方法
统计分析是广泛使用的空间数据分析方法,其主要缺点是假设空间数据的分布统计无关,而事实上是相互交迭的,即空间对象是相互依赖的。
而且,统计方法不能很好的建立非线性规则,不能处理诸如姓名这些抽象值。
统计方法也不能很好的处理不完整和非精确数据
。
空间统计分析存在的另一个问题是计算代价太高。
在空间数据挖掘中,另一常用的方法是概念泛化和归纳学习技术,利用概念泛化与归纳学习方法建立概念层次树,将空间与非空间数据从详细数据转化为具有一般特征的数据。
这样不仅可以对空间数据进行压缩,同时可以从不同层次进行挖掘分析,而空间数据挖掘通常是面向高层次概念的,这样可以得到更广泛的强规则。
传统的数据挖掘过程是在数据仓库的基础上,面向结构化的数据进行分析,这在很大程度上限制了数据挖掘的作用范围和效果,基于语义相似度的数据挖掘在一定程度上部分解决了这个问题。
结语
在GIS空间数据挖掘中,由于数据的复杂性,使得在进行数据挖掘时对数据的预处理变得繁杂与困难,降低了数据挖掘的精度和效率。
本文在语义相似度和数据挖掘的理论基础上提出基于语义相似度的空间数据挖掘模型,该模型将空间数据挖掘算法用于本体的方法进行处理,以便能高效的选择相应的算法。
基于语义相似度的空间数据挖掘模型改变了传统的面向数据仓库的数据挖掘,将语义相似度的概念引入到数据挖掘的数据准备阶段。
提高了数据挖掘的效率和精度,有一定的现实意义和操作价值。
参考文献:
[1]梁田.浅析数据挖掘在数字图书馆信息服务中的应用[J].高校图书情报论坛,2009,8
(2):
31~34.
[2]刘群,李素建.基于《知网》的词汇语义相似度的计算[J].中文计算语言学,2002,7
(2):
59~76.
[3]李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007(3):
99~105.
[4]魏凯斌,冉延平,余牛.语义相似度的计算方法研究与分析[J].计算机技术与发展,2010,7(3):
102~105.
[5]毛克彪,田庆久.空间数据挖掘技术方法及应用[J].遥感技术与应用,2002,8(4).
[6]HanJW.OLAPMining:
AnIntegrationofOLAPwithDataMining[C].In:
Proc.1997IFIPConf.onDataSemantics.Leysin,Switzerland[A].1997.
[7]HanJWetal.DBMiner:
ASystemforDataMininginRelationalDatabasesandDataWarehouses[C].In:
Proc.CASCON'97:
MeetingofMinds[A].Toronto.Canada,1997.
[8]付晓杰.空间数据挖掘的应用技术[J].中国环境管理干部学院学报;2011,2(3):
31~34.