同类网站查询接口的集成系统设计与实现毕业论文设计推荐Word文档下载推荐.docx

资源描述

同类网站查询接口的集成系统设计与实现毕业论文设计推荐Word文档下载推荐.docx

《同类网站查询接口的集成系统设计与实现毕业论文设计推荐Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《同类网站查询接口的集成系统设计与实现毕业论文设计推荐Word文档下载推荐.docx（24页珍藏版）》请在冰点文库上搜索。

同类网站查询接口的集成系统设计与实现毕业论文设计推荐Word文档下载推荐.docx

学院对毕业论文（设计）中的抄袭、剽窃、弄虚作假等违反学术规范的行为将严肃处理，并可能导致毕业论文（设计）成绩不合格，无法正常毕业、取消学士学位资格或注销并追回已发放的毕业证书、学士学位证书等严重后果；

5.若在省教育厅、学院组织的毕业论文（设计）检查、评比中，被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为，本人愿意接受学院按有关规定给予的处理，并承担相应责任。

学生（签名）：

日期：

年月日

学生：

魏敏（指导老师：

陈磊）

（淮南师范学院计算机与信息工程系）

摘要:

随着Internet与网络技术的飞速发展，网上的信息以海量方式增长，然而我们却不能快速而准确获取有效的信息。

海量信息只能通过查询接口访问获得，为了能够同时访问同一领域多个Web数据库，需要对多个Web数据库的查询接口进行集成．通过实验分析，基于查询条件的深网查询接口集成方法不仅简化了模式匹配的复杂过程，而且很大程度上提高了模式集成的精度．因此，此集成方法是高效可行的．研究深度网的最终目的是为获取隐藏于Web应用之后的网络数据库中的数据，通过查询接口在线访问后台数据库，这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。

传统的搜索引擎只能进行静态页面的搜索，现有的接口集成方法主要集成各个网站提供的高级搜索接口，这样建立的集成接口由于包含过多的属性，面在一些属性上可代用户选择的候选值更是繁杂，不便用户使用，于是设计了基于查询条件的集成接口，避免了浏览复杂的查询接口。

关键词:

查询接口；

数据库；

接口集成；

搜索；

属性抽取

Congenerwebsitequeryinterfaceintegrationsystemdesignandimplementation

Student:

WeiMin（FacultyAdviser：

Chenlei）

（Departmentofcomputerandinformationengineering,HuainanNormalUniversity）

Abstract:

WiththerapiddevelopmentofInternetandnetworktechnology,theinformationonthenetgrowthinvastamountsofway,butwecan'

tgeteffectiveinformationforaccurateandfast.Canonlybeacquiredthroughqueryinterfacetoaccessvastamountsofinformation,inordertobeabletoaccesstothesamefieldatthesametimemultipleWebdatabase,theneedformultipleWebdatabasequeryinterfaceintegration.Throughtheexperimentalanalysis,basedonthequeryconditionsofdeepWebqueryinterfaceintegrationmethodnotonlysimplifiesthecomplexprocessofpatternmatching,andlargelyenhancestheprecisionofmodelintegration.Therefore,basedonthequeryconditionsofdeepWebqueryinterfaceintegrationmethodisefficientandfeasible.TheultimategoalofnetworkresearchdepthisforhiddenintheWebapplicationafterthenetworkdatainthedatabase,throughonlineaccesstobackgrounddatabasequeryinterface,whichchangedthetraditionalwaybasedonsearchenginequeryandaccesstoinformationbringsgreatchallenge.Traditionalsearchenginescanonlycarryonthestaticpagesearch,theexistinginterfaceintegrationapproachmainlyintegratedeachsiteoffersadvancedsearchinterface,sothatestablishtheintegrationoftheinterfaceduetocontaintoomanyattributes,faceonsomeofthepropertiesfortheuser'

schoiceofcandidatevaluesismorecomplex,inconvenienttousers,sotheintegrationinterfacedesignbasedonthequeryconditions,avoidingthebrowsecomplexqueryinterface.

Keyword:

Queryinterface;

Database;

Theinterfaceintegration;

Search;

Attributesampling

前言

论文主要任务是针对当前同一领域的不同站点所提供的各个查询接口进行集成，为用户提供一个统一的查询接口，从而节省用户的查询时间。

用户在统一的查询接口上输入查询条件，这个查询条件会被分解并传送到各个站点，并被提交，从而得到站点的部分查询结果，再将各站点得到的查询结果进行整合，最终为用户返回一个完整的查询结果。

使用本体（ontology定义为用户浏览和查询处理领域知识）的“桥梁”作用,设置属性之间的映射关系不同的接口模式,准确地识别语义之间的关联不同的界面特性,模型融合,根据模式匹配的结果,合并网站数据库查询接口设置在相同的语义属性,并且尽量保持查询接口领域的结构特点和属性顺序,以取得集成查询界面。

互联网包含了大量的可获取信息,它的内容存储在一个真正的在线数据库,但是这个信息获得得通过查询接口来访问。

为了提供给用户属于网络特定的区域根据去问的途径需要对网络数据库查询接口集成。

因此，同类查询接口集成可以看作是同领域各本地查询接口之上的全局视图。

同类查询接口集成主要完成两个方面的工作：

模式的集成与模式的匹配。

从模式匹配来看,传统的模式匹配方法主要由对比匹配发现属性相关性和统一的全局模型。

然而,由于Web数据库的自治性导致查询接口形式和内容的多样性,和最终所有可能的属性组合的搜索空间很难，使模式匹配面临更多的挑战。

使属性之间高精度匹配,查询接口模式匹配使用领域本体概念映射方法,遵循本体语义元信息,计算的模式统一,建立属性之间的映射关系不同的接口模式,实施不同的深层网络查询接口属性匹配。

在模式融合方面，传统模式融合方法没用充分考虑属性的模式信息，只是针对属性标签，导致集成结果不够完善和精确，因此，查询接口模式融合通过定义模式融合规则对模式匹配结果进行处理，以最终获得源模式集的全局查询接口。

目前国内在利用计算机实现集成的网站查询接口集成系统设计和这一领域的研究还有很大可能的研究空间，所以选择了这个主题,力求在这个领域作出贡献。

１模式匹配方法

模式匹配方法主要包括基于本体、基于统计模型和基于聚类。

1.1模式匹配方法—基于本体

每个源接口形式化为XML架构，并产生相应的XML架构的基础，然后再定义一组规则，形成主体匹配的自定义域本体概念，，产生集成接口。

然而，由于这种方法的匹配精度依赖于所定义的匹配规则，需要大量的人工定义精确的规则。

基于本体的关系数据库模式匹配的方法，先计算输入的单词相似的本体，然后使用聚类方法和定义的概念聚集近似映射功能映射得到的最终结果。

然而，在计算的输入字和本体相似时，考虑只有这两个关键词的相似性，没有得到充分利用本体语义级别的功能。

基于本体的集成方法，通过建立综合查询接口领域本体，然后定义推理规则消除冲突，使每个查询的界面和集成的查询接口匹配。

然而，这第一场比赛后可能使综合查询接口集成方法不能完全与本地查询接口匹配，导致在一个综合的结果是不可靠的，全面，准确。

在模式融合方面，提出并实现查询接口集成的原型系统的首要条件是设计一种交互式聚类匹配算法，得到不同查询接口属性之间的对应关系，将获得匹配关系的属性聚集到同一类中，并根据聚类规则选出每一类中的特征属性。

由于复杂的映射关系频繁出现，不能完全自动化实现集成的过程，需要通过用户交互方式指导解决映射过程中不确定的问题，最后将每一类的特征属性作为统一查询接口的属性。

但是，该方法忽略了查询接口中很多有用的信息，并且需要用户交互来解决问题。

由此可见，虽然同类网站查询接口集成取得了一些研究成果，但是，仍然有很多关键问题有待进一步改善。

在模式集成，综合查询界面，提出并实施了一个原型系统的首要条件是要设计一个互动的聚类匹配算法，以获得不同的查询接口属性之间的映射关系将被匹配到同一类物业聚集，根据规则选择每个集群在要素属性类。

由于复杂的映射经常发生，不能完全实现自动化，从而实现集成的过程，需要通过用户交互指导解决问题的过程中的不确定性映射，最后是每类作为一个统一的查询接口属性的特性。

然而，该方法忽略了很多有用的信息的查询接口，需要用户交互来解决问题，并给用户带来不便，有一些关键问题有待进一步改进。

1.2模式匹配方法—基于统计模型

基于统计模型：

分析统计模型属性名称同时出现的频率和模式，应用“正关联”和“负关联”双重算法同时处理简单的1:

1匹配和复杂的M:

N匹配，正相关”往往对应元素之间的“群组关系”，而“负关联”通常对应于“同义关系”，然后把得到的相关知识应用于辅助匹配。

使用关联搜索方法获得属性间的复杂匹配，该方法通过应用关联公式计算属性间的关联值，然后定义函数选择、同义属性匹配。

然而,这种方法基于统计抽样空间,没有充分考虑属性语义之间的关联。

1.3模式匹配方法—基于聚类

优先选择用于获取相关的属性的匹配方法，首先通过聚类相关的属性的集合，然后用最大的选择策略和贪婪策略和设计新的选择策略相结合的策略，删除不正确的属性关联。

然而，该方法只考虑查询接口的属性标记，并忽略其它有用的信息，在同时，不识别匹配的复杂性。

然而，这种方法不考虑之间的语义关联的属性和属性忽略了其他有用的信息。

基于集群的模式匹配方法，先在小组赛使用的相关属性，那么相似的概念来计算通过聚类的代名词属性终于可以用贪心算法来匹配选择。

然而，这种方法将查询接口一组平图案的属性作为一个实体，忽略了丰富的结构信息查询接口。

2深网查询接口集成分析

属性分析是查询接口集成的最主要途径，利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系，从而获得一个集成的查询接口，其框架如图１所示：

图１深网查询接口集成框架

2.1模式匹配

Ｗｅｂ数据库的自治性使得不同查询接口语义相似或相同的属性具有不同的标签、不同的数据格式与组织结构。

为了获得统一的查询接口，对不同的语义查询接口要匹配的属性相同。

因此，模式匹配是网络的异构信息集成的关键问题。

定义1：

模式匹配（schemamatching）。

可以形式化定义为函数schemamatching（I1，I2，Ａ），其中I1，I2为输入信息，A为辅助信息，满足如下条件：

１）I1∈｛〈S1，D1〉｜S1为输入模式信息，D1为满足模式S1的数据实例｝。

２）I2∈｛〈S2，D2〉｜S2为输入模式信息，D2为满足模式S2的数据实例｝。

３）A表示所有可利用的帮助更好理解模式语义并协助完成匹配任务的所有辅助信息，如字典、本体等。

４）匹配函数schemamatching（I1，I2，Ａ）在执行过程中先产生模式元素间候选对应关系集，经辅助工具判断最终生成模式元素间确定的对应关系集作为输出。

候选对应关系集（candidatecorrespondenceset，CSS）的形式化描述为CSS＝｛〈S1i，S2j，similary>

｜similary｜≥σ，σ∈[0,1]｝，其中S1i表示模式S1中第i个元素按语义规则书写的表达式。

｜S1｜表示模式元素的个数，如果｜S1｜＝m，那么ｉ∈[0,m]。

S2j与S1i类似，表示S2中第j个元素按语义规则书写的表达式，｜S2｜表示模式元素的个数，如果｜S2｜＝n，那么j∈［0，n］。

similary表示S1i与S2j的相似度，σ表示相似度阈值，如果S1i与S2j的相似度大于（等于）阈值σ，那么意味着S1i与S2j相似，将相似关系记录于确定的匹配对应关系集（matchingcorrespondenceset，MCS）中，最后，将ＭＣＳ作为匹配函数的输出。

通过模式匹配模式定义，根据现有的资料，发现语义对应模式成员之间正确的映射，它包含2种类型匹配：

简单的和复杂的匹配。

简单的匹配是指以1:

1的语义属性之间的映射。

不同于简单的1:

1匹配，复杂匹配的是属性频繁1：

M匹配或M：

n匹配，即M模式属性匹配另一个模式的N个属性。

目前的研究重点是1:

1匹配，简化了复杂的匹配，主要由于在搜索空间的属性的所有可能组合的消耗是非常困难的。

2.2模式融合

匹配关系模型之间的融合性能，通过建立统一的全局查询接口，集成查询接口。

定义2模式融合可以看作一个三元组（DS，IS，IS*）：

１）DS＝｛dS1，dS2，…，DSn｝，DS表示在线数据库集合，DSi（1≤i≤n）为一个在线数据库；

２）IS＝｛IS1，IS2，…，ISM｝，IS表示查询接口模式集合，ISｊ（1≤j≤m）为一个数据库的查询接口模式；

３）IS*＝IS1⊕IS2⊕…⊕ISM，IS*表示在模式IS1，IS2，…，ISM匹配基础上，合并了网站查询接口集合中表示同一语义的属性，同时尽可能地保持该领域查询接口的属性顺序和结构特征，产生的集成查询接口页面。

一个设计良好的集成查询接口应具备以下3个特点：

１）完备性（conciseness）:

在同一领域的深网查询接口中，如果其他查询接口中的任何属性与之都不相似，那么这个属性应该出现在集成查询接口中。

２）一致性（coherence）:

源自不同查询接口语义相似的属性以统一的通用属性显示在集成查询接口中，集成查询接口中的属性标签具有一定的共性，能够传递不同查询接口中同义属性的含义。

３）用户友好性（friendly）:

集成查询接口的属性标签应该是该领域中最常用的词汇，且属性间的结构合理，布局恰当，为用户提供较好的可视化效果。

3基于本体的深网查询接口集成

3.1本体构建和本体概念模型

为了提高本体的构建效率，并在一定程度上能够保证领域本体的质量，提出了一种半自动构建本体的算法。

Step1、通过本体构建工具构建核心本体：

1）领域术语抽取。

确定领域类型，从特定领域深网查询接口表单中对领域术语进行抽取。

2）领域概念抽取。

领域核心本体要求领域概念必须是语义明确的，所以需要用领域内最通用的语义来描述该类术语。

3）概念间层次关系获取。

捕获术语间的语义关系，例如同义（Synonymy）关系、继承（IS－A）关系、包含（part-of）关系等。

4）领域本体精炼。

本体工程师以本体工程学标准对已获取的领域本体概念及概念间的语义关系进行修正。

5）领域本体描述。

采用本体描述语言（如RDF，XML，OWL等）描述领域本体，本体描述语言提供了机器对文档内容可处理的机制。

Step2、如果某个术语不存在于核心本体中，那么通过匹配方法确定术语和本体概念之间的语义关系。

Step3、如果相匹配，那么将匹配的概念加入到核心本体适当位置，以完成本体的自动扩展。

完成本体构建后，本体可以形式化地表示为概念层次结构，用户的查询以及相关数据可以映射到概念空间，它可以看作是一个保存概念和概念之间关系的知识系统。

定义3：

领域本体概念模型（domainontologyconceptmodel，DOCM）。

描述了特定领域实体的术语组织以及术语之间的关系，每个概念可以形式化为Class＝｛Ai，DTi，｛Si｝，｛CIi｝，｛CAi｝，｛SCi｝，｛nI1，nI2，…nIk｝，Ni｝，表示与该概念相关的数据信息，其中：

Ai表示概念主类，它是特定领域下通用的、人们易于理解的词汇，该词汇表示一类概念，可以看作描述这类概念的关键字；

DTi表示概念所属的数据类型；

｛Si｝表示概念主类的同义词集合，即概念别名；

｛CIi｝表示概念主类的实例集合；

｛CAi｝表示与概念相关的条件属性集合，主类与条件属性表示包含关系；

｛SCi｝表示概念主类的子类集合，主类与子类表示继承关系；

｛nI1，nI2，…，nIk｝表示概念主类的k个实例的计数器；

Ni表示概念主类的计数器。

DOCM具有良好的组织结构，能够清晰地描述概念及概念之间的关系。

本体构建采用Proté

gé

（是一个史丹佛大学开发的本体编辑和知识获取软件,开发语言采用Java,属于开放源码软件）作为本体编辑工具，并以OWL作为本体描述语言。

通过对OWL文件的操作，可以很容易地实现对DOCM的调用。

3.2基于本体的模式匹配

基于本体的网站查询接口模式匹配方式有属性级和实例级2种匹配：

定义4：

本体的属性级匹配。

假设A*表示Web数据库查询接口的属性，Ai表示DOCM中概念节点Ｃｉ的概念主类，｛Si｝表示Ai的同义词集合，CAi表示Ai的条件属性，SCi表示Ai的子类，Sim（A*，Ai）表示应用基于本体的短语相似度算法。

计算A*与Ai的相似度值，σ表示相似度阈值，Ni表示Ai的计数器。

属性级匹配存在以下几种情况：

１）如果A*∈｛Si｝或者A*＝Ai，那么表示A*与Ai是1：

1的属性匹配，Ai的计数器加１，即Ｎｉ＝Ｎｉ＋１；

２）如果A*｛Si｝，A*≠Ai，且Siｍ（A*，Ai）≥σ，那么表示A*与Ai是1:

1的属性匹配，同时，将A*作为Ai的一个同义词加入同义词集合｛Si｝中，Ai的计数器加1，即Ni＝Ni＋1；

３）如果A*∈｛CAi｝∪｛SCi｝，那么表示A*与Ai是M：

1的属性匹配，Ai的计数器加１，即Ni＝Ni＋1；

４）如果A*DOCM，且Ai，Siｍ（A*，Ai）＜σ，表示A*与Ai不存在匹配关系，那么创建一个新类Class，将A*作为Class的主类加入DOCM中，并设置A*的计数器为１。

定义5：

基于本体的短语相似度算法。

给定短语P1和短语P2，通过预处理将短语P1和短语P2分别表示为词集P1＝｛c1，c2，…，cm｝和P2＝｛cl1，cl2，…，cln｝，对于短语P1中的每个词汇ci（1≤i≤m，借助通用本体WordNet分别计算其与短语P2中每个词汇clj（1≤j≤n）的相似度，其计算如式

（1）所示：

其中，overlap（ci,clj）表示词汇ci与词汇clj的语义重合度，即在WordNet概念树中，词汇ci与词汇clj之间包含相同上位概念的个数。

Depth（ci）表示词汇ci的概念深度，即词汇ci在WordNet概念树中到达根节点的层次深度，同理，depth（clj）表示词汇clj在WordNet概念树中到达根节点的层次深度。

如果短语P1中词汇ci与短语P2中词汇clj相同，那么Sim（ci，clj）＝1。

然后，在短语P2中找到与短语P1中词汇ci相似度最大的值作为短语P1相似度值集中的一个值Si，从而获得短语P1的相似度值集Sim1＝｛S1，S2，…，Sm｝，采样同样方法获得短语P2的相似度值集Sim2＝｛sl1，sl2，…，sln｝。

短语P1和P2的最后相似度通过每个短语中词汇各自的相似度占总单词个数的比例获得，其计算如式

（2）所示：

假设给定短语P3，δ为相似度阈值。

如果Sim（P1，P2）＝Sim（P1，P3）≥δ成立，那么可以推测短语P2和短语P3是语义相似的，都应记录于匹配对应关系集中。

通过关键字属性级匹配方法，可以准确识别DOCM中类或属性与来自不同查询接口属性之间的匹配关系，不仅能够识别简单匹配，而且能够识别复杂匹配。

相比于传统模式匹配方法，大大提高了匹配精度并降低了模式匹配过程的复杂性。

假设属性ｅ来自查询接口QI1，属性ｆ来自查询接口QI2，即e∈QI1，f∈QI2，同时，在DOCM中存在主类g，该主类g包含2个同义词汇e和f，那么，在比较查询接口QI1中属性e和查询接口QI2中属性f时，首先比较查询接口QI1中属性e与DOCM中主类的相似度。

通过比较，如果发现查询接口QI1中属性e与DOCM中主类g相似，并且在g的同义词集合中包括同义词f，那么DOCM中的主类g可以看作“桥接”，进而推出查询接口QI1中属性e和查询接口QI2中属性f是相似的，此时查询接口QI1中属性e和查询接口QI2中属性f为1:

1的简单匹配。

对于M:

N匹配，首先将其转换为M∶1匹配和1：

N匹配，进而获得M：

N匹配。

例如：

某个源查询接口中存在属性“公共属性”，它包含2个条件属性“datefrom”和“dateto”，当查找DOCM时，DOCM中包含类属性“from”和“to”，并且类属性“from”和“tp”在DOCM中的概念主类为“出版日期，那么通过比较可知源查询接口属性“publication”与DOCM中主类“出版日期”是相似的，进而可以推知“publication”与“from”和“to”为1:

M匹配，“datefrom”与“publicationdate”为M∶1匹配，“from”和“to”与“datefrom”和“dateto”为M：

定义6:

基于本体的实例级匹配。

假设A*表示Web数据库查询接口的属性，Ai表示DOCM中概念节点Ci的概念主类，｛CI*｝表示A*的实例集合，｛CIi｝表示Ai的实例集合，｛NI1，NI2，…，Nik｝表示Ai的k个实例计数器集合。

如果A*与Ai相似，那么SiM（A*，Ai）≥σ成立，其中σ表示A*和Ai的相似度阈值。

对于查询接口属性A*的实例Ins*j，Ins*j∈｛CI*｝，存在以下几种情况：

1）如果INｓ*j∈｛CIi｝，那么Nih\j＝Nij＋1；

2）如果I

展开阅读全文

同类网站查询接口的集成系统设计与实现毕业论文设计 推荐Word文档下载推荐.docx

同类网站查询接口的集成系统设计与实现毕业论文设计推荐Word文档下载推荐.docx