同类网站查询接口的集成系统设计与实现毕业论文设计.docx

资源描述

同类网站查询接口的集成系统设计与实现毕业论文设计.docx

《同类网站查询接口的集成系统设计与实现毕业论文设计.docx》由会员分享，可在线阅读，更多相关《同类网站查询接口的集成系统设计与实现毕业论文设计.docx（53页珍藏版）》请在冰点文库上搜索。

同类网站查询接口的集成系统设计与实现毕业论文设计.docx

同类网站查询接口的集成系统设计与实现毕业论文设计

毕业论文声明

本人郑重声明：

1．此毕业论文是本人在指导教师指导下独立进行研究取得的成果。

除了特别加以标注地方外，本文不包含他人或其它机构已经发表或撰写过的研究成果。

对本文研究做出重要贡献的个人与集体均已在文中作了明确标明。

本人完全意识到本声明的法律结果由本人承担。

2．本人完全了解学校、学院有关保留、使用学位论文的规定，同意学校与学院保留并向国家有关部门或机构送交此论文的复印件和电子版，允许此文被查阅和借阅。

本人授权大学学院可以将此文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本文。

3．若在大学学院毕业论文审查小组复审中，发现本文有抄袭，一切后果均由本人承担，与毕业论文指导老师无关。

4.本人所呈交的毕业论文，是在指导老师的指导下独立进行研究所取得的成果。

论文中凡引用他人已经发布或未发表的成果、数据、观点等，均已明确注明出处。

论文中已经注明引用的内容外，不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究成果做出重要贡献的个人和集体，均已在论文中已明确的方式标明。

学位论文作者（签名）：

年月

关于毕业论文使用授权的声明

本人在指导老师的指导下所完成的论文及相关的资料（包括图纸、实验记录、原始数据、实物照片、图片、录音带、设计手稿等），知识产权归属华北电力大学。

本人完全了解大学有关保存，使用毕业论文的规定。

同意学校保存或向国家有关部门或机构送交论文的纸质版或电子版，允许论文被查阅或借阅。

本人授权大学可以将本毕业论文的全部或部分内容编入有关数据库进行检索，可以采用任何复制手段保存或编汇本毕业论文。

如果发表相关成果，一定征得指导教师同意，且第一署名单位为大学。

本人毕业后使用毕业论文或与该论文直接相关的学术论文或成果时，第一署名单位仍然为大学。

本人完全了解大学关于收集、保存、使用学位论文的规定，同意如下各项内容：

按照学校要求提交学位论文的印刷本和电子版本；学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存或汇编本学位论文；学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务；学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权大学可以将本学位论文的全部或部分内容编入学校有关数据库和收录到《中国学位论文全文数据库》进行信息服务。

在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。

论文作者签名：

日期：

指导教师签名：

日期：

毕业论文（设计）

论文题目：

同类网站查询接口的集成系统设计与实现

学生姓名：

学号：

所在院系：

计算机与信息工程系

专业名称：

计算机科学与技术

届次：

指导教师：

淮南师范学院本科毕业论文（设计）

诚信承诺书

1.本人郑重承诺：

所呈交的毕业论文（设计），题目《同类网站查询接口的集成系统设计与实现》是本人在指导教师指导下独立完成的，没有弄虚作假，没有抄袭、剽窃别人的内容；

2.毕业论文（设计）所使用的相关资料、数据、观点等均真实可靠，文中所有引用的他人观点、材料、数据、图表均已注释说明来源；

3.毕业论文（设计）中无抄袭、剽窃或不正当引用他人学术观点、思想和学术成果，伪造、篡改数据的情况；

4.本人已被告知并清楚：

学院对毕业论文（设计）中的抄袭、剽窃、弄虚作假等违反学术规范的行为将严肃处理，并可能导致毕业论文（设计）成绩不合格，无法正常毕业、取消学士学位资格或注销并追回已发放的毕业证书、学士学位证书等严重后果；

5.若在省教育厅、学院组织的毕业论文（设计）检查、评比中，被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为，本人愿意接受学院按有关规定给予的处理，并承担相应责任。

学生（签名）：

日期：

年月日

同类网站查询接口的集成系统设计与实现

学生：

魏敏（指导老师：

陈磊）

（淮南师范学院计算机与信息工程系）

摘要:

随着Internet与网络技术的飞速发展，网上的信息以海量方式增长，然而我们却不能快速而准确获取有效的信息。

海量信息只能通过查询接口访问获得，为了能够同时访问同一领域多个Web数据库，需要对多个Web数据库的查询接口进行集成．通过实验分析，基于查询条件的深网查询接口集成方法不仅简化了模式匹配的复杂过程，而且很大程度上提高了模式集成的精度．因此，此集成方法是高效可行的．研究深度网的最终目的是为获取隐藏于Web应用之后的网络数据库中的数据，通过查询接口在线访问后台数据库，这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。

传统的搜索引擎只能进行静态页面的搜索，现有的接口集成方法主要集成各个网站提供的高级搜索接口，这样建立的集成接口由于包含过多的属性，面在一些属性上可代用户选择的候选值更是繁杂，不便用户使用，于是设计了基于查询条件的集成接口，避免了浏览复杂的查询接口。

关键词:

查询接口；数据库；接口集成；搜索；属性抽取

Congenerwebsitequeryinterfaceintegrationsystemdesignandimplementation

Student:

WeiMin（FacultyAdviser：

Chenlei）

（Departmentofcomputerandinformationengineering,HuainanNormalUniversity）

Abstract:

WiththerapiddevelopmentofInternetandnetworktechnology,theinformationonthenetgrowthinvastamountsofway,butwecan'tgeteffectiveinformationforaccurateandfast.Canonlybeacquiredthroughqueryinterfacetoaccessvastamountsofinformation,inordertobeabletoaccesstothesamefieldatthesametimemultipleWebdatabase,theneedformultipleWebdatabasequeryinterfaceintegration.Throughtheexperimentalanalysis,basedonthequeryconditionsofdeepWebqueryinterfaceintegrationmethodnotonlysimplifiesthecomplexprocessofpatternmatching,andlargelyenhancestheprecisionofmodelintegration.Therefore,basedonthequeryconditionsofdeepWebqueryinterfaceintegrationmethodisefficientandfeasible.TheultimategoalofnetworkresearchdepthisforhiddenintheWebapplicationafterthenetworkdatainthedatabase,throughonlineaccesstobackgrounddatabasequeryinterface,whichchangedthetraditionalwaybasedonsearchenginequeryandaccesstoinformationbringsgreatchallenge.Traditionalsearchenginescanonlycarryonthestaticpagesearch,theexistinginterfaceintegrationapproachmainlyintegratedeachsiteoffersadvancedsearchinterface,sothatestablishtheintegrationoftheinterfaceduetocontaintoomanyattributes,faceonsomeofthepropertiesfortheuser'schoiceofcandidatevaluesismorecomplex,inconvenienttousers,sotheintegrationinterfacedesignbasedonthequeryconditions,avoidingthebrowsecomplexqueryinterface.

Keyword:

Queryinterface;Database;Theinterfaceintegration;Search;Attributesampling

前言

论文主要任务是针对当前同一领域的不同站点所提供的各个查询接口进行集成，为用户提供一个统一的查询接口，从而节省用户的查询时间。

用户在统一的查询接口上输入查询条件，这个查询条件会被分解并传送到各个站点，并被提交，从而得到站点的部分查询结果，再将各站点得到的查询结果进行整合，最终为用户返回一个完整的查询结果。

使用本体（ontology定义为用户浏览和查询处理领域知识）的“桥梁”作用,设置属性之间的映射关系不同的接口模式,准确地识别语义之间的关联不同的界面特性,模型融合,根据模式匹配的结果,合并网站数据库查询接口设置在相同的语义属性,并且尽量保持查询接口领域的结构特点和属性顺序,以取得集成查询界面。

互联网包含了大量的可获取信息,它的内容存储在一个真正的在线数据库,但是这个信息获得得通过查询接口来访问。

为了提供给用户属于网络特定的区域根据去问的途径需要对网络数据库查询接口集成。

因此，同类查询接口集成可以看作是同领域各本地查询接口之上的全局视图。

同类查询接口集成主要完成两个方面的工作：

模式的集成与模式的匹配。

从模式匹配来看,传统的模式匹配方法主要由对比匹配发现属性相关性和统一的全局模型。

然而,由于Web数据库的自治性导致查询接口形式和内容的多样性,和最终所有可能的属性组合的搜索空间很难，使模式匹配面临更多的挑战。

使属性之间高精度匹配,查询接口模式匹配使用领域本体概念映射方法,遵循本体语义元信息,计算的模式统一,建立属性之间的映射关系不同的接口模式,实施不同的深层网络查询接口属性匹配。

在模式融合方面，传统模式融合方法没用充分考虑属性的模式信息，只是针对属性标签，导致集成结果不够完善和精确，因此，查询接口模式融合通过定义模式融合规则对模式匹配结果进行处理，以最终获得源模式集的全局查询接口。

目前国内在利用计算机实现集成的网站查询接口集成系统设计和这一领域的研究还有很大可能的研究空间，所以选择了这个主题,力求在这个领域作出贡献。

１模式匹配方法

模式匹配方法主要包括基于本体、基于统计模型和基于聚类。

1.1模式匹配方法—基于本体

每个源接口形式化为XML架构，并产生相应的XML架构的基础，然后再定义一组规则，形成主体匹配的自定义域本体概念，，产生集成接口。

然而，由于这种方法的匹配精度依赖于所定义的匹配规则，需要大量的人工定义精确的规则。

基于本体的关系数据库模式匹配的方法，先计算输入的单词相似的本体，然后使用聚类方法和定义的概念聚集近似映射功能映射得到的最终结果。

然而，在计算的输入字和本体相似时，考虑只有这两个关键词的相似性，没有得到充分利用本体语义级别的功能。

基于本体的集成方法，通过建立综合查询接口领域本体，然后定义推理规则消除冲突，使每个查询的界面和集成的查询接口匹配。

然而，这第一场比赛后可能使综合查询接口集成方法不能完全与本地查询接口匹配，导致在一个综合的结果是不可靠的，全面，准确。

在模式融合方面，提出并实现查询接口集成的原型系统的首要条件是设计一种交互式聚类匹配算法，得到不同查询接口属性之间的对应关系，将获得匹配关系的属性聚集到同一类中，并根据聚类规则选出每一类中的特征属性。

由于复杂的映射关系频繁出现，不能完全自动化实现集成的过程，需要通过用户交互方式指导解决映射过程中不确定的问题，最后将每一类的特征属性作为统一查询接口的属性。

但是，该方法忽略了查询接口中很多有用的信息，并且需要用户交互来解决问题。

由此可见，虽然同类网站查询接口集成取得了一些研究成果，但是，仍然有很多关键问题有待进一步改善。

在模式集成，综合查询界面，提出并实施了一个原型系统的首要条件是要设计一个互动的聚类匹配算法，以获得不同的查询接口属性之间的映射关系将被匹配到同一类物业聚集，根据规则选择每个集群在要素属性类。

由于复杂的映射经常发生，不能完全实现自动化，从而实现集成的过程，需要通过用户交互指导解决问题的过程中的不确定性映射，最后是每类作为一个统一的查询接口属性的特性。

然而，该方法忽略了很多有用的信息的查询接口，需要用户交互来解决问题，并给用户带来不便，有一些关键问题有待进一步改进。

1.2模式匹配方法—基于统计模型

基于统计模型：

分析统计模型属性名称同时出现的频率和模式，应用“正关联”和“负关联”双重算法同时处理简单的1:

1匹配和复杂的M:

N匹配，正相关”往往对应元素之间的“群组关系”，而“负关联”通常对应于“同义关系”，然后把得到的相关知识应用于辅助匹配。

使用关联搜索方法获得属性间的复杂匹配，该方法通过应用关联公式计算属性间的关联值，然后定义函数选择、同义属性匹配。

然而,这种方法基于统计抽样空间,没有充分考虑属性语义之间的关联。

1.3模式匹配方法—基于聚类

优先选择用于获取相关的属性的匹配方法，首先通过聚类相关的属性的集合，然后用最大的选择策略和贪婪策略和设计新的选择策略相结合的策略，删除不正确的属性关联。

然而，该方法只考虑查询接口的属性标记，并忽略其它有用的信息，在同时，不识别匹配的复杂性。

然而，这种方法不考虑之间的语义关联的属性和属性忽略了其他有用的信息。

基于集群的模式匹配方法，先在小组赛使用的相关属性，那么相似的概念来计算通过聚类的代名词属性终于可以用贪心算法来匹配选择。

然而，这种方法将查询接口一组平图案的属性作为一个实体，忽略了丰富的结构信息查询接口。

2深网查询接口集成分析

属性分析是查询接口集成的最主要途径，利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系，从而获得一个集成的查询接口，其框架如图１所示：

图１深网查询接口集成框架

2.1模式匹配

Ｗｅｂ数据库的自治性使得不同查询接口语义相似或相同的属性具有不同的标签、不同的数据格式与组织结构。

为了获得统一的查询接口，对不同的语义查询接口要匹配的属性相同。

因此，模式匹配是网络的异构信息集成的关键问题。

定义1：

模式匹配（schemamatching）。

可以形式化定义为函数schemamatching（I1，I2，Ａ），其中I1，I2为输入信息，A为辅助信息，满足如下条件：

１）I1∈｛〈S1，D1〉｜S1为输入模式信息，D1为满足模式S1的数据实例｝。

２）I2∈｛〈S2，D2〉｜S2为输入模式信息，D2为满足模式S2的数据实例｝。

３）A表示所有可利用的帮助更好理解模式语义并协助完成匹配任务的所有辅助信息，如字典、本体等。

４）匹配函数schemamatching（I1，I2，Ａ）在执行过程中先产生模式元素间候选对应关系集，经辅助工具判断最终生成模式元素间确定的对应关系集作为输出。

候选对应关系集（candidatecorrespondenceset，CSS）的形式化描述为CSS＝｛〈S1i，S2j，similary>｜similary｜≥σ，σ∈[0,1]｝，其中S1i表示模式S1中第i个元素按语义规则书写的表达式。

｜S1｜表示模式元素的个数，如果｜S1｜＝m，那么ｉ∈[0,m]。

S2j与S1i类似，表示S2中第j个元素按语义规则书写的表达式，｜S2｜表示模式元素的个数，如果｜S2｜＝n，那么j∈［0，n］。

similary表示S1i与S2j的相似度，σ表示相似度阈值，如果S1i与S2j的相似度大于（等于）阈值σ，那么意味着S1i与S2j相似，将相似关系记录于确定的匹配对应关系集（matchingcorrespondenceset，MCS）中，最后，将ＭＣＳ作为匹配函数的输出。

通过模式匹配模式定义，根据现有的资料，发现语义对应模式成员之间正确的映射，它包含2种类型匹配：

简单的和复杂的匹配。

简单的匹配是指以1:

1的语义属性之间的映射。

不同于简单的1:

1匹配，复杂匹配的是属性频繁1：

M匹配或M：

n匹配，即M模式属性匹配另一个模式的N个属性。

目前的研究重点是1:

1匹配，简化了复杂的匹配，主要由于在搜索空间的属性的所有可能组合的消耗是非常困难的。

2.2模式融合

匹配关系模型之间的融合性能，通过建立统一的全局查询接口，集成查询接口。

定义2模式融合可以看作一个三元组（DS，IS，IS*）：

１）DS＝｛dS1，dS2，…，DSn｝，DS表示在线数据库集合，DSi（1≤i≤n）为一个在线数据库；

２）IS＝｛IS1，IS2，…，ISM｝，IS表示查询接口模式集合，ISｊ（1≤j≤m）为一个数据库的查询接口模式；

３）IS*＝IS1⊕IS2⊕…⊕ISM，IS*表示在模式IS1，IS2，…，ISM匹配基础上，合并了网站查询接口集合中表示同一语义的属性，同时尽可能地保持该领域查询接口的属性顺序和结构特征，产生的集成查询接口页面。

一个设计良好的集成查询接口应具备以下3个特点：

１）完备性（conciseness）:

在同一领域的深网查询接口中，如果其他查询接口中的任何属性与之都不相似，那么这个属性应该出现在集成查询接口中。

２）一致性（coherence）:

源自不同查询接口语义相似的属性以统一的通用属性显示在集成查询接口中，集成查询接口中的属性标签具有一定的共性，能够传递不同查询接口中同义属性的含义。

３）用户友好性（friendly）:

集成查询接口的属性标签应该是该领域中最常用的词汇，且属性间的结构合理，布局恰当，为用户提供较好的可视化效果。

3基于本体的深网查询接口集成

3.1本体构建和本体概念模型

为了提高本体的构建效率，并在一定程度上能够保证领域本体的质量，提出了一种半自动构建本体的算法。

Step1、通过本体构建工具构建核心本体：

1）领域术语抽取。

确定领域类型，从特定领域深网查询接口表单中对领域术语进行抽取。

2）领域概念抽取。

领域核心本体要求领域概念必须是语义明确的，所以需要用领域内最通用的语义来描述该类术语。

3）概念间层次关系获取。

捕获术语间的语义关系，例如同义（Synonymy）关系、继承（IS－A）关系、包含（part-of）关系等。

4）领域本体精炼。

本体工程师以本体工程学标准对已获取的领域本体概念及概念间的语义关系进行修正。

5）领域本体描述。

采用本体描述语言（如RDF，XML，OWL等）描述领域本体，本体描述语言提供了机器对文档内容可处理的机制。

Step2、如果某个术语不存在于核心本体中，那么通过匹配方法确定术语和本体概念之间的语义关系。

Step3、如果相匹配，那么将匹配的概念加入到核心本体适当位置，以完成本体的自动扩展。

完成本体构建后，本体可以形式化地表示为概念层次结构，用户的查询以及相关数据可以映射到概念空间，它可以看作是一个保存概念和概念之间关系的知识系统。

定义3：

领域本体概念模型（domainontologyconceptmodel，DOCM）。

描述了特定领域实体的术语组织以及术语之间的关系，每个概念可以形式化为Class＝｛Ai，DTi，｛Si｝，｛CIi｝，｛CAi｝，｛SCi｝，｛nI1，nI2，…nIk｝，Ni｝，表示与该概念相关的数据信息，其中：

Ai表示概念主类，它是特定领域下通用的、人们易于理解的词汇，该词汇表示一类概念，可以看作描述这类概念的关键字；

DTi表示概念所属的数据类型；

｛Si｝表示概念主类的同义词集合，即概念别名；

｛CIi｝表示概念主类的实例集合；

｛CAi｝表示与概念相关的条件属性集合，主类与条件属性表示包含关系；

｛SCi｝表示概念主类的子类集合，主类与子类表示继承关系；

｛nI1，nI2，…，nIk｝表示概念主类的k个实例的计数器；

Ni表示概念主类的计数器。

DOCM具有良好的组织结构，能够清晰地描述概念及概念之间的关系。

本体构建采用Protégé（是一个史丹佛大学开发的本体编辑和知识获取软件,开发语言采用Java,属于开放源码软件）作为本体编辑工具，并以OWL作为本体描述语言。

通过对OWL文件的操作，可以很容易地实现对DOCM的调用。

3.2基于本体的模式匹配

基于本体的网站查询接口模式匹配方式有属性级和实例级2种匹配：

定义4：

本体的属性级匹配。

假设A*表示Web数据库查询接口的属性，Ai表示DOCM中概念节点Ｃｉ的概念主类，｛Si｝表示Ai的同义词集合，CAi表示Ai的条件属性，SCi表示Ai的子类，Sim（A*，Ai）表示应用基于本体的短语相似度算法。

计算A*与Ai的相似度值，σ表示相似度阈值，Ni表示Ai的计数器。

属性级匹配存在以下几种情况：

１）如果A*∈｛Si｝或者A*＝Ai，那么表示A*与Ai是1：

1的属性匹配，Ai的计数器加１，即Ｎｉ＝Ｎｉ＋１；

２）如果A*｛Si｝，A*≠Ai，且Siｍ（A*，Ai）≥σ，那么表示A*与Ai是1:

1的属性匹配，同时，将A*作为Ai的一个同义词加入同义词集合｛Si｝中，Ai的计数器加1，即Ni＝Ni＋1；

３）如果A*∈｛CAi｝∪｛SCi｝，那么表示A*与Ai是M：

1的属性匹配，Ai的计数器加１，即Ni＝Ni＋1；

４）如果A*DOCM，且Ai，Siｍ（A*，Ai）＜σ，表示A*与Ai不存在匹配关系，那么创建一个新类Class，将A*作为Class的主类加入DOCM中，并设置A*的计数器为１。

定义5：

基于本体的短语相似度算法。

给定短语P1和短语P2，通过预处理将短语P1和短语P2分别表示为词集P1＝｛c1，c2，…，cm｝和P2＝｛cl1，cl2，…，cln｝，对于短语P1中的每个词汇ci（1≤i≤m，借助通用本体WordNet分别计算其与短语P2中每个词汇clj（1≤j≤n）的相似度，其计算如式

（1）所示：

其中，overlap（ci,clj）表示词汇ci与词汇clj的语义重合度，即在WordNet概念树中，词汇ci与词汇clj之间包含相同上位概念的个数。

Depth（ci）表示词汇ci的概念深度，即词汇ci在WordNet概念树中到达根节点的层次深度，同理，depth（clj）表示词汇clj在WordNet概念树中到达根节点的层次深度。

如果短语P1中词汇ci与短语P2中词汇clj相同，那么Sim（ci，clj）＝1。

然后，在短语P2中找到与短语P1中词汇ci相似度最大的值作为短语P1相似度值集中的一个值Si，从而获得短语P1的相似度值集Sim1＝｛S1，S2，…，Sm｝，采样同样方法获得短语P2的相似度值集Sim2＝｛sl1，sl2，…，sln｝。

短

展开阅读全文