开题报告基于信息检索技术的地理编码服务研究Word下载.docx
《开题报告基于信息检索技术的地理编码服务研究Word下载.docx》由会员分享,可在线阅读,更多相关《开题报告基于信息检索技术的地理编码服务研究Word下载.docx(21页珍藏版)》请在冰点文库上搜索。
国外的地理编码技术已经发展的相当成熟,但是国内的GIS软件厂商开发的地址匹配和地理编码软件没有提出适合国内信息系统应用的地址模型和标准,都没有建立标准的、起地理参考作用的地理编码数据库系统。
因此,中国的地理编码技术应用还处于起步和探索阶段,适合中国国情的地址编码解决方案至今仍然是一块空白Error!
通过地名、地址进行地理编码的过程中,发现人们广泛使用地名简称。
比如“福州大学”通常简称“福大”,“福建省空间信息工程研究中心”通常简称“空间中心”。
在这种情况下,能通过地名简称准确进行地理编码是地理编码领域尚未完善解决的问题。
本论文拟在分析、研究当前国内外地理编码技术、信息检索技术的基础上,设计地理编码数据库,并选择一种适合地理信息领域的信息检索技术,实现一种以Web服务方式提供第三方开发调用接口的地理编码服务,这种方式可以大大提高地理编码服务的适用范围和易用性,扩大了地理编码服务的共享范围,增强了服务公众、提供数据共享的能力。
2文献综述
2.1地理编码服务概述
分布式计算技术的发展,特别是WebServices的出现,为地理信息的广泛共享提供了技术支撑。
目前,将WebServices技术综合应用于空间信息服务领域已经成为一种趋势。
甚至还有人认为:
空间信息服务的基本内涵是在GIS领域引入一种新模式即基于WebService的应用模式和集成模式,已解决传统GIS存在的问题Error!
地理编码服务是空间信息服务的一个重要方面。
对于地址编码服务Error!
Referencesourcenotfound.OpenGIS委员会认为:
它是为用户提供通过网络进行访问的接口,实现了将相关的地址定位信息,例如地名、街道地址、邮编等,转换为规范化的位置信息,即地理坐标。
2.1.1地理编码概念
地理编码的概念,国内外有关部门意见不一。
中国标准化研究院认为:
地理编码Error!
Referencesourcenotfound.(Geocoding)提供了一种将地址定位信息转换成可以被用于GIS系统的地理坐标的方式,使得GIS可以通过对地理数据的集成、存储、检索、操作和分析,生成并输出各种地理信息,从而为土地利用、资源管理、环境监测、交通运输、经济建设、城市规划以及政府各部门行政管理提供新的知识,为工程设计和规划、管理决策服务。
有的部门Error!
Referencesourcenotfound.认为地理编码是对城市的地名和地址进行的编码。
调查研究表明,北京市的有关部门在过去几年中曾经花费很大精力开展过城市道路、道路交叉口、街坊代码信息标准化等工作,它们认为这就是地理编码。
但是中国标准化研究院认为:
这实际上是对地理要素或实体及其属性进行编码,目的是通过编码对地理要素或实体进行唯一的标识,并没有涉及到地理实体及其属性与地理空间位置信息(地理坐标)之间的关联,不能算是地理编码。
2.1.2地理编码服务研究现状
国外许多国家在地址数据命名和表述方面要规范化得多,并且在地理编码软件工具开发和应用服务的标准和规范方面,研究和进展也比较成熟Error!
Referencesourcenotfound.Error!
但是我国GIS领域在地址编码技术应用和标准化方面还处于起步和探索阶段,适合中国国情的地址编码解决方案至今仍然是一块空白Error!
2.1.2.1国外研究现状
美国早在20世纪70年代就建立了全国的地址编码标准,并开发了通用的地址编码软件工具,到90年代后成功地应用于TIGER文件系统,在历次全国人口普查统计中发挥了巨大的作用Error!
再如,MapInfo公司的MapMarkerError!
Referencesourcenotfound.是强大的地址编码工具,实现了基本的地址编码框架和地址匹配引擎。
它所提供的一套产品包括MapMarker地址编码引擎、标准的地址数据库、MapMarkerServer和GeocoderControl(OCX),以及其他的一些应用程序和范例介绍。
同时,MapMarker在地址编码过程中也给用户附加了许多控制工具,包括地址编码模式、策略、匹配设置参数等。
在其具体的应用中,MapMarker已经结合具体地区,如美国、加拿大,完成了这两个国家的地址数据库的建设。
地址匹配引擎也具有较高的响应速度,在加拿大全国1.5G字节的地址数据量的情况下,进行地址匹配仅需1秒钟。
但目前,MapMarker仅适用于上述两个国家。
另外,开放式GIS联合会在2001年3月就已经发布了GeocoderServiceSpecification0.7.6版本,对地址编码应用服务的参数和类型等进行规范性的说明。
2.1.2.2国内研究现状
在国内,北大方正公司在MapInfoMapMarker的基础上开发了MapSearch——地址编码管理器,试图实现基于北京市全境地图数据和地址数据、依据地址字符串智能地匹配出地理坐标值。
但是,地址编码管理器采用的地址模型太过复杂,加上软件功能开发太过简单,在具体应用中地址匹配率不高。
北京长地计算机公司开发有“寻址神”Error!
Referencesourcenotfound.,通过地址匹配,可以将地址数据库和地图数据库中的数据记录相连接,并给地址数据库中的地址数据赋予地图定位信息(即空间坐标)。
国内在地理编码服务标准的制定方面,还没有进行标准化的研究和制定,再加上中国现有的地名、地址体系异常复杂,地名相对混乱、无序,规律性低和缺乏统一的标准,造成国内目前在地址编码技术应用方面还仅仅局限于专业领域和部门内部,难以推广和普及。
2.2信息检索技术概述
计算机信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的信息需求查找所需信息的过程。
从广义上讲,信息检索包含了信息的存储和检索两部分。
而我们通常所说的信息检索是指狭义概念的信息检索,即从信息集合中找出所需信息的过程,也就是利用信息检索工具或数据库查找所需信息的过程。
计算机信息检索是对传统的手工检索的革命。
手工检索虽然可以解决部分信息查询问题,但是这种检索方式的种种局限性已经越来越难以适应当代信息检索的发展。
实践表明,手工检索将日益让位给计算机信息检索,只有通过计算机信息检索,才可能做到全面、准确、实时地获得所需信息Error!
2.2.1计算机信息检索原理
常见的中文检索引擎主要完成两方面的任务Error!
Referencesourcenotfound.:
1、信息的规范化。
将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。
信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分。
2、信息的检索和表达。
以索引好的信息库作为信息基础,利用信息库己被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。
信息的检索包括搜索、结果输出两部分。
2.2.2计算机检索系统发展历程
纵观计算机检索系统的发展,可以将其发展过程划分为三个阶段。
第一阶段:
1971年以前建立的许多信息检索系统,其工作方式是传统的批处理检索方式。
这一阶段的数据存取和数据通讯能力都比较差。
第二阶段:
1971年以后,产生并发展了联机情报检索系统,如OCLC、Dialog在线数据库联机检索系统。
这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。
第三阶段:
以Internet的出现为标志,系统大多采用分布式的网络化管理,其信息资源的主要特点是:
数字化形式表达、多媒体和多载体、内容覆盖全社会领域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等。
这些特点导致了信息处理从传统模式向新型模式的转变,系统功能从单纯的信息检索到综合信息管理和服务等等。
这些变化必将促使信息检索技术的研究和不断发展,以满足人们对提高信息利用能力的需求。
我国计算机信息检索的应用起步较晚,从70年代后期开始的,也分为三个阶段:
1、1975年—1985年,这10年间,主要是引进国外文献磁带进行计算机检索。
2、1980年-1985年,开始自建专业文献库进行信息服务的研究和实验阶段。
3、1985年以后,从书目库的建设转到应用软件的开发。
2.2.3计算机检索技术研究现状
随着计算机检索系统的研究,信息检索技术已经趋近成熟。
许多技术已经投入大规模应用。
它的研究范围也在扩展,包括检索,分类和聚类等Error!
当然,基于互联网的搜索引擎也是基于信息检索技术。
本文的研究重点是关于结构化的数据,即存储在关系数据库中的地理信息数据。
在数据库领域,数据之间有特定的关系,并按照这种逻辑关系进行结构化的存储。
进行检索时,可以按照这种逻辑关系直接找到需要的信息Error!
结构化查询语言(SQL)被作为关系型数据库管理系统的标准语言,其主要功能就是建立与各种数据库之间的联系Error!
它提供了一套输入、更改和查看关系数据库内容的命令。
程序员可以从中检索数据,修改其中的数据和管理大多数关系数据库。
SQL的最大优点之一在于它鼓励试验。
用于检索数据的查询工作与用于修改数据的查询完全分割开来,因此用户可以随心所欲地键入任意类型的数据检索查询,而不必害怕破坏数据库中数据。
目前,绝大多数流行的关系型数据库管理系统,如Oracle、Sybase、MicrosoftSQLServer、Access等都采用了SQL语言标准。
基于数据库系统的SQL查询语言满足了大量开发者的需求,但是对于海量数据来说,使用数据库中的类似like‘%keyword%’查询将会构成数据检索性能急剧下降。
因为对于模糊查询来说,数据库本身的索引根本起不了作用,查询的过程相当于一个一个记录匹配的过程,这对于数据库检索来说,效率是致命的。
全文检索技术的出现,使这一问题迎刃而解。
全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为一种非常有效的信息检索技术。
2.2.3.1全文检索技术概述
全文检索(Full-textRetrieval)技术是一种面向全文、提供全文的新型检索技术Error!
国外多从实际角度来理解全文检索,认为它是基于数据内容进行数字化文档的查询处理,为全文集和建立一个能精确定位每个字词的索引,克服了传统顺序索引在多数据集合和复杂查询条件下检索效率低的不足,一些系统还能够将检索结果按照特定因素进行相关性排序Error!
全文检索Error!
Referencesourcenotfound.是指计算机索引程序通过扫描文章中的每一个字、词,对每一个字、词建立索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
这个过程类似于通过字典中的检索字表查字的过程。
全文检索的方法主要分为按字检索和按词检索两种Error!
按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。
对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合而为一的,而中文中字与词有很大区别。
按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。
英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。
中文文字则需要切分字词,以达到按词索引的目的。
2.2.3.2全文检索技术研究现状
目前比较成熟的全文检索技术有两类:
1、使用关系数据库中的全文检索功能组件,比较典型的有Oracle中提供的OracleText全文检索组件,MicrosoftSQLServer中提供的MicrosoftSearch全文检索功能组件。
2、使用扩展性较强的全文检索引擎工具包,比较典型的有ApacheJakarta的Lucene引擎工具包Error!
在此基础上,很多研究者就全文检索技术做了大量的研究。
复旦大学陈士杰、张玥杰在lucene的基础上研究出英汉跨语言信息检索系统Error!
Referencesourcenotfound.;
中国科学院向桂林,在全文检索系统中实现了动态索引技术Error!
南京大学樊胜设计并实现了一个基于web的期刊全文检索系统Error!
南京大学陈康,许婷等人设计并实现了一个基于web的全文搜索引擎,并给出了测试效果Error!
Referencesourcenotfound.,等等。
在应用方面,最成功的就是全文检索搜索引擎的大量出现。
全文搜索引擎是名副其实的搜索引擎,国外代表性的有Google、yahoo、AllTheWeb)等,国内著名的有XX()、中搜()。
它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。
2.2.4全文检索关键技术
2.2.4.1索引技术
按照字、词建立索引是全文索引的核心,但是建立什么样的索引,是索引技术要考虑的问题。
倒排索引是搜索引擎检索系统普遍采用的索引技术。
北京大学的彭波Error!
Referencesourcenotfound.在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索结果;
吴恒山等人Error!
Referencesourcenotfound.研究了一种新的基于可扩展散列标的倒排索引更新策略,实现了倒排索引的增量更新和实时更新,厦门大学的李栋,史晓东Error!
Referencesourcenotfound.设计了一种支持高效检索的实时更新倒排索引策略.这种策略综合了减少更新操作,加快实时更新和缩短用户查询响应时间等方面的优点,较好地适应了当前网络内容变化的特点。
丛磊等人Error!
Referencesourcenotfound.则设计了用于搜索引擎上的二级索引数据库,使得搜索引擎能在短时间内返回给用户检索信息,提高了搜索的性能。
纪蕾,陈英Error!
Referencesourcenotfound.利用聚类算法将相似的文档排列在一起,提出了一种能够有效提高索引压缩率的文档重排算法—Star-Scan算法,实验证明,该算法能有效提高搜索引擎的效率。
2.2.4.2中文分词技术
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。
我们把中文的汉字序列切分为有意义的词,就是中文分词。
对于搜索引擎的海量信息处理,分词的速度是至关重要的。
目前自动分词的基本算法主要分为两大类:
基于词典的分词方法Error!
Referencesourcenotfound.和基于频度统计的分词方法Error!
基于词典的分词方法是以汉语词典为基础对中文语句通过匹配进行切分,这种方法主要包括三种基本算法Error!
正向最大匹配法,逆向最大匹配法和全切分法。
到底采用哪种分词算法的准确度最高,对信息检索的性能影响最大,目前并无定论。
对于一个成熟的分词系统来说,都需要综合不同的算法。
陈宏彦,陈俊杰Error!
Referencesourcenotfound.提出了一种规则与统计相结合的分词算法,有效地提高了分词效率;
王坚等人Error!
Referencesourcenotfound.提出一种基于最短路径的改进分词算法,并通过实验证明,利用改算法,可以消除大量歧义,取得较好的分词效果。
李庆虎等人Error!
Referencesourcenotfound.设计了一种新的中文分词词典机制—双字哈希机制,提高了中文分词的速度,是一种较简洁,更高效的词典组织机制。
张培颖,李村合Error!
Referencesourcenotfound.根据中文词语中双字词语较多,并且三字词,四字词叶较多这一特点提出了一种新的分词词典机制—四字哈希机制,充分返回了现代计算机内存大空间的优势,提高了分词的速度和效率。
徐爱萍等Error!
Referencesourcenotfound.则对GIS方面的中文分词进行了研究。
她在分析系统应用领域的基础上设计了一个GIS中文查询系统的词典,提出了基于扩展ER空间数据库环境的全匹配分词算法,解决了切分歧义和未登陆词的问题,为GIS中文查询语句的正确理解提供了有效的语义信息。
2.2.4.3Lucene全文索引工具包介绍
LuceneError!
Referencesourcenotfound.不是一个完整的全文索引应用,而是一个用Java写的全文索引引擎工具包,它提供了多个API函数与灵活的数据存储结构(可以定制),可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能。
它是APACHE基金会jakarta的一个子项目。
Lucene有两个主要的服务Error!
Referencesourcenotfound.:
索引和搜索。
索引和搜索的任务是相互独立的。
索引和搜索服务都可用,这样开发人员就可以对它们进行扩展来满足自己的需求。
文本索引是Lucene重点构造的一个可搜寻的索引区域。
索引是为高性能内容查询而创建的知识库。
Lucene提供丰富的API,可以与存储在索引中的信息交互。
用户可以简单地指定索引作为文档名称列表和它的摘要,也可以复杂地指定索引作为整个文档存储内容和相关的附加元数据。
例如:
可以按附加的元数据信息排队,这样,查询结果中就可以区分出优先级较高的一些文档。
3研究方案和技术路线
3.1研究目标和研究内容
研究目标:
在分析、研究当前国内外地理编码技术、信息检索技术的基础上,设计地理编码数据库,并选择一种适合地名、地址信息模糊检索的技术,将其应用在GIS系统中,实现一种以Web服务方式提供第三方开发调用接口的地理编码服务,并在客户端访问该服务,结合福州应用示范区实现地理编码。
具体内容包括:
1、城市地理编码的原理和核心技术
结合国内外城市地理编码系统的实现方案,研究地理编码的原理,及其核心技术。
2、地理编码数据库设计
地理编码数据库作为空间信息基础数据库的重要组成部分,在城市信息化建设中具有极其重要的地位,是空间信息基础设施建设乃至数字城市建设的基础。
本文研究地理编码数据库建立时,数据库的设计、数据的规范化处理等问题。
3、模糊检索技术
关于地名、地址的地理编码,往往会涉及模糊匹配,所以要研究模糊检索技术。
1)研究和分析各种信息检索技术,比较其优缺点,并以具有代表性的SQL查询语言、SqlServer2000全文检索技术、基于Lucene引擎包的全文检索技术三种方法做综合分析比较,设计本文的模糊检索技术。
2)基于地理编码的中文分词组件
中文分词效果直接影响模糊检索的查准率。
本文针对地理信息系统专业领域特点,设计基于地理编码的中文分词组件,在传统中文分词技术的基础上,适当加以改进。
4、地理编码应用服务
研究遵循OpenGIS的地理编码服务规范,在此基础上按照此规范,设计并实现按照不同查询方式的地理编码服务接口,包括按照地名、街道地址、邮政编码、电话号码、身份证号码、IP地址等等。
5、应用服务示范
面向城市电子政务、电子商务和社会公众的需求,设计并实现地理编码服务应用示范。
3.2拟采用的技术路线
3.2.1技术路线
本论文拟在研究地理编码技术和信息检索技术的基础上,针对目前城市地理编码研究中存在的问题,提出一种模糊地理编码的方法,并以Web服务方式提供第三方开发调用接口的地理编码服务。
技术路线图如下:
图31研究技术路线
3.2.2总体框架图
如下图所示:
分为四个部分。
最底层是数据服务层,包括各个地理编码表,地名表、街道表、电话区段表、IP区段表、身份证区段表、邮编区段表。
各个表供查询检索时调用。
中间件层包括模糊检索引擎和精确匹配引擎。
模糊检索引擎利用全文检索引擎包Lucene二次开发并对其进行扩展实现的。
扩展其中文分词组件,设计基于地理编码的中文分词组件。
精确检索引擎用来实现简单的查询。
服务层设计通过不同查询方式供调用的接口,返回不同的结果。
包括地名、地址、IP地址、邮编、身份证号码、电话号码等方式查询的接口。
应用层设计调用地理编码服务的示范区。
包括Ajax技术的应用来提高用户体验,数据的显示方式,界面等等。
3.2.2.1地理编码数据库的设计方案
建立地理编码数据库最关键的是,需要建立一整套规范和标准,在统一的地理参考框
架中规范地址和地名数据,进行统一的组织和管理。
在此要求下,需要构建地名表、街道表、邮政编码区段表、IP地址区段表、身份证区段表、电话号码区段表等,