硕士学位论文.docx

上传人:b****3 文档编号:11783728 上传时间:2023-06-02 格式:DOCX 页数:55 大小:438.43KB
下载 相关 举报
硕士学位论文.docx_第1页
第1页 / 共55页
硕士学位论文.docx_第2页
第2页 / 共55页
硕士学位论文.docx_第3页
第3页 / 共55页
硕士学位论文.docx_第4页
第4页 / 共55页
硕士学位论文.docx_第5页
第5页 / 共55页
硕士学位论文.docx_第6页
第6页 / 共55页
硕士学位论文.docx_第7页
第7页 / 共55页
硕士学位论文.docx_第8页
第8页 / 共55页
硕士学位论文.docx_第9页
第9页 / 共55页
硕士学位论文.docx_第10页
第10页 / 共55页
硕士学位论文.docx_第11页
第11页 / 共55页
硕士学位论文.docx_第12页
第12页 / 共55页
硕士学位论文.docx_第13页
第13页 / 共55页
硕士学位论文.docx_第14页
第14页 / 共55页
硕士学位论文.docx_第15页
第15页 / 共55页
硕士学位论文.docx_第16页
第16页 / 共55页
硕士学位论文.docx_第17页
第17页 / 共55页
硕士学位论文.docx_第18页
第18页 / 共55页
硕士学位论文.docx_第19页
第19页 / 共55页
硕士学位论文.docx_第20页
第20页 / 共55页
亲,该文档总共55页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

硕士学位论文.docx

《硕士学位论文.docx》由会员分享,可在线阅读,更多相关《硕士学位论文.docx(55页珍藏版)》请在冰点文库上搜索。

硕士学位论文.docx

硕士学位论文

TP311.52

2005612100175

公开

分类号__________学号______________

10487

学校代码__________密级______________

 

硕士学位论文

 

数据网格环境下的元数据分发技术研究

学位申请人

左金虎

学科专业

计算机软件与理论

指导教师

卢炎生教授

答辩日期

2007年6月2日

 

ADissertationSubmittedtoHuazhongUniversityofScienceand

TechnologyfortheDegreeofMasterofEngineering

 

TheResearchonMetadataDisseminationTechnologyforDataGrid

 

Candidate

:

ZuoJinhu

Major

:

ComputerSoftwareandTheory

Supervisor

:

Prof.LuYansheng

 

HuazhongUniversityofScienceandTechnology

Wuhan430074,P.R.C.

January,2007

独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:

日期:

年月日

 

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:

学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在________年解密后适用本授权书。

本论文属于

不保密□。

(请在以上方框内打“√”) 

学位论文作者签名:

         指导教师签名:

    

日期:

    年   月   日   日期:

    年  月    

摘要

伴随着Internet网络规模的飞速增长,在计算密集型和数据密集型应用领域,传统的分布式计算和并行处理技术已不能满足高性能分布式处理和分布式海量存储管理的需求,于是网格技术应运而生。

数据网格(DataGrid)的概念来自于网格,它是网格技术在数据管理方面的应用和实现。

数据网格环境下的数据访问过程依赖于资源发现,而资源发现即为发现对数据资源进行描述的元数据,网格环境下网络资源频繁变化,相应的元数据变化也很频繁,而如何能更加快捷有效地获得所需要的元数据,就需要各个节点能够将各自的元数据快捷有效地分发到网络中的其他相关节点,这取决于元数据分发策略的实施。

现有的元数据分发策略基本可以分为两类:

被动分发和主动分发。

主动元数据分发具有很高的准确性,但是却会占用很多网络资源;被动元数据分发具有低代价性,但是却很难保证元数据的准确性。

轮值会议元数据分发(RotatingMeetingMetadataDissemination,RMMD)以轮值会议召开的方式来进行元数据的分发,并采用了HLA(HighLevelArchitecture)数据分发管理中采用的数据过滤机制,它兼具了主动元数据分发的准确性和被动元数据分发的低代价性,能快捷有效的完成元数据在整个网格中的分发,让整个网格的元数据在较短的时间内、用较小的代价得到较好的配置。

通过模拟仿真实验将RMMD策略与主动元数据分发策略、被动元数据分发策略进行比较,实验结果显示RMMD策略可以有效的分发整个网格中的元数据,提高分发的准确性,并保证分发的低代价性。

关键词:

数据网格,元数据分发,轮值会议

Abstract

Withtherapidgrowthofinternetnetworkscale,thetraditionaldistributedcomputationandparallelprocessingtechnologyhasn’tmettheneedofthishigh-powereddistributedcomputationanddistributedmanagementforlargememoryinthedomainofcomputation-denseanddata-denseapplication.Asaresult,gridtechnologycameintobeing.Datagridofisthegridtechnology’applicationandrealizationindatamanagement.

Theprocessofdataaccessinginthedatagriddependsonresourcediscoverywhichfindsoutthemetadatathatdescribessource.Fortheresourceingridfrequentlychanges,thecorrespondingmetadatachangesalot,too.Togettherequisitemetadataquicklyandeffectivelyrequiresthateverynodecoulddisseminateitsdatatoothercorrespondingnodesquicklyandeffectively,andthisliesontheimplementofmetadatadisseminationstrategywhichisclassifiedaspassiveandactive.Activemetadatadissemination(ACTMD)hasgreatveracitybutitoccupiestoomuchnetworkresource.Passivemetadatadissemination(PASMD)haslowcostbutithardlyensurestheveracityofmetadata.

RotatingMeetingMetadataDissemination(RMMD)disseminatemetadatainthewayofrotatingmeetingconvocation,andadoptsthedatafiltrationmechanisminHLAdatadistributionmanagement.TheRMMDwhichhasboththebenefitsofveracityofACTMDandlowcostofPASMDcandisseminatemetadatainthewholegridquicklyandeffectively,andmakethemetadatainthewholegridgetbettercollocationwithlowercostinashortertime.ComparedRMMDwithPASMDandACTMDthroughsimulationexperiment,theresultsshowtheRMMDstrategycoulddisseminatethemetadatainthewholegrideffectively,increasetheveracityandensurethelowcostofdissemination.

Keywords:

DataGrid,MetadataDissemination,RotatingMeeting

目录

摘要I

AbstractII

1绪论

1.1研究背景

(1)

1.2国内外研究概括

(2)

1.3本课题研究的目标和意义(5)

1.4本文组织结构(6)

2数据网格中的元数据分发技术

2.1数据网格核心问题(7)

2.2元数据的提出(7)

2.3传统数据分发技术(11)

2.4数据网格中传统元数据分发技术(13)

2.5小结(15)

3轮值会议元数据分发机制

3.1背景介绍(16)

3.2轮值会议元数据分发的原理(18)

3.3轮值会议元数据分发的协议(19)

3.4小结(28)

4原型系统开发与仿真实验分析

4.1RMMD原型系统开发(29)

4.2实验环境OPNET(30)

4.3仿真模型(34)

4.4仿真算法(37)

4.5实验与性能分析(40)

4.6小结(43)

5总结与展望

5.1本文工作总结(44)

5.2展望(45)

致谢(46)

参考文献(47)

1绪论

1.1研究背景

伴随着Internet网络规模的飞速增长,计算机网络技术和分布式技术得到了高速发展和广泛应用,许多科学计算领域,特别是计算密集型和数据密集型应用领域,对广域网环境下海量数字信息分析处理和协同计算能力的要求也越来越高[1]。

这类应用需要将分布在不同地理区域的高性能计算能力、超大规模数据集合和各种资源整合在一起,为分布在不同地理区域的用户提供服务。

传统的分布式计算和并行处理技术已不能满足这种高性能分布式处理和分布式海量存储管理的需求,于是网格[2,3]技术应运而生。

网格技术可以把分布在各地的计算机连接起来,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享,感觉如同个人使用一台超级计算机一样。

这种虚拟资源可以使相关人员迅速获得所需的数据访问和处理能力,帮助其进行计算密集型的研究和数据分析、解决复杂的业务问题。

这样,网格就可以帮助用户突破今天技术基础设施的限制。

对于传统网络环境,网格具有动态可变、异构、多域等特性。

网格计算作为新一代的分布式计算框架,与传统分布式系统的主要区别在于在没有集中控制的情况下,通过对计算资源进行大规模的共享,满足应用程序对高性能计算的要求[4],并且这种对计算资源的大规模共享是动态的、柔性的、安全的和协作的。

目前,在国内外网格也引起了极大的关注,如美国Argonne国家实验室研发的Globus系统[5,6]、欧洲数据网格DataGrid[7]、美国能源部的科学计算网格DOEScienceGrid、中科院计算所的织女星网格VEGAGrid[8]等等。

数据网格(DataGrid)源于网格,它是网格技术在数据管理方面的应用和实现。

它将地理上分布、异构的多种数据资源,通过高速互连网络连接并集成起来,屏蔽底层异构的物理资源,形成单一的逻辑视图,实现资源共享和协同工作,为用户提供虚拟的数据访问、数据存储、数据管理和处理环境。

其中,良好地表示、存储、访问和使用大量资源信息是数据网格运行的基本前提。

在数据网格计算中,资源是分布的,资源及其提供者也是分布的。

为了对网络资源进行有效的管理和检索,使目前有序和无序状态并存的网络资源能够像传统资源(如馆藏资源)一样有序化,从而使它们得到更好的利用,人们一直都在作着多方面的努力。

从早期的Archie和Gopher系统,到近期的搜索引擎和主题指南,都是这方面努力的成果。

历年实践表明,增加关于资源的额外信息或元数据(metadata)是更好地组织资源的基础,它能够提高相关资源被检索和存取的可能性,提供对主题领域更清晰的全面认识,并提高用户区别相似资源的能力。

正因为如此,元数据逐渐受到普遍的重视[9]。

元数据(metadata),简言之就是“关于数据的数据”,是对数据进行组织和处理的基础。

数据网格环境下的数据访问过程依赖于资源发现,而资源发现即为发现对数据资源进行描述的元数据。

同时数据网格环境中网络资源频繁变化,一方面,结点可以动态的加入、离开系统,另一方面,各个节点中的资源也是不断变化的,相应的元数据变化也很频繁,而如何能更加快捷有效地获得所需要的元数据,就需要各个节点能够将各自的元数据快捷有效地分发到网络中的其他相关节点,这取决于元数据分发策略的实施,也是本文集中探讨的问题。

1.2国内外研究概括

1.2.1Globus中的元数据目录服务

Globus系统是目前比较具有影响力的一个网格项目,提供网格环境下的中间件服务,如MDS、GridFtp等。

系统使用标准的协议实现了文件数据的移动、远程访问GASS及数据的高速传输GridFtp机制,在此基础上完成数据复制、元数据目录的管理MDS(MetadataandDirectoryService)和复制的选择工作,为数据网格系统提供了一个较好的底层系统开发平台[10]。

其中,MDS在网格环境中提供资源信息服务[11]。

MDS主要负责对网格环境中信息的发现、注册、查询、修改等工作,提供对网格计算环境的一个真实、实时的动态反映。

该服务是建立在轻权目录访问协议LDAP(LightweightDirectoryAccessProtocol)[12]基础上的,处理网格计算环境中的各种资源(包括数据资源、计算资源等)、服务和其他主体(entity)的描述,是网格计算环境中的信息服务中心。

它采用两层结构[13]:

1)网格资源信息服务器(GridResourceInformationServer,GRIS):

以一种目录的结构登记具体的资源信息。

2)网格索引信息服务器(GridIndexInformationServer,GIIS):

记录有GRIS的地址,并能提供GRIS信息缓冲。

1.2.2GridDaen中的元信息服务

GridDaen是国内最早实现的通用数据网格原型系统,是中国国家网格(ChinaNationalGrid,简称CNGrid)研究的一部分。

CNGrid是国家“十五”863计划“高性能计算机及其核心软件”重大专向支持建设的网格示范平台,通过资源共享、协同工作和服务机制,有效支持科学研究、资源环境、先进制造和信息服务等领域的应用,以技术创新推动国家信息化建设及相关产业的发展。

GridDaen主要目标是统一管理和访问分布异构环境下的海量存储和数据资源,为用户提供一体化虚拟数据空间和统一逻辑视图,支持对分布数据集的统一无缝访问,实现虚拟数据集和跨管理域的联邦数据服务。

系统具有可扩展性、安全性、动态可配置、高性能、高可用性等特点[14]。

GridDaen主要由客户机、数据访问、元信息服务MDIS(MetadataInformationService)和底层异构资源四部分组成。

其中,数据访问子系统包括请求优化管理调度与DRB(DataRequestBroker)服务器,元信息服务子系统包括高层元信息服务与局部信息服务。

DRB服务为用户提供数据访问、存储和管理的功能。

MDIS是一个层次式分布服务结构,由局部元信息服务器和中央全局元信息服务器组成。

各个局部元数据服务器负责所对应本地的资源和数据元信息服务,提供元信息服务的访问。

中央服务器建立各个局部元信息的索引和数据缓冲,为DRB实现统一的访问接口和全局数据视图提供元信息支持。

MDIS和DRB是相互独立设计和实现的,通过系统的部署和配置建立服务关系。

图1.1为元信息服务逻辑结构图。

中央全局元信息服务器处于系统的中央位置,管理着分布各处的局部元信息服务。

局部元信息服务则分散在系统中的不同位置,受到中央节点的管理和监控。

局部元信息服务一般位于某台元信息服务节点机器上,通过配置为某个或者某几个DRB域提供元信息服务。

这种两层式设计可以提高系统的可扩展性,方便系统管理,并减少了集中式设计带来的性能瓶颈和单点失效问题。

图1.1元信息服务逻辑结构图

1.2.3传统网格中元数据分发技术

现有的元数据分发方式基本可以分为两类:

被动分发和主动分发。

对于被动分发而言,除非有请求到达,节点不会发布自己拥有资源的元数据;主动分发与之相反,当节点加入网络或者节点数据发生一定变化的时候,节点会立即发布自己的元数据。

显然,被动分发的网络资源的消耗甚小,但同时对于网络资源频繁变化的环境,元数据中存在很多错误,其他节点数据的准确性无法得到满足。

而主动分发可以在最大可能上保证元数据的准确性,从而可以增加节点数据的有效性,但由于分发数据过多,对网络资源的使用也是最多的。

对于主动分发而言,根据对元数据分发处理的不同,即分发给什么样的节点以及怎么样转发别的节点发来的元数据,可以将主动分发策略分为以下几种[15,16]。

1.泛洪式在该算法中,元数据分发采用最简单的泛洪的方式。

也就是说:

当自身产生更新消息后,也向网格中的所有节点发送消息。

2.邻居式

在该算法中,所采用的策略是:

设定一个半径范围(该半径可以用节点跳转数来衡量)发送消息时,只向处于该半径范围之内的所有节点发送消息。

3.水流式在这种方法中,采用的其实是一种特殊节点法,根据某种方式来确定出某些特殊节点。

现在比较流行的是网格势能来区分节点的处理能力。

网格上的一个节点的网格势能可以被认为是可以被分派给某个节点上的应用程序的处理能力。

该处理能力依赖于邻近出现的机器以及他们之间互连的网络。

同时还有一个相对网格势能:

节点相对于某个远程节点的势能。

如果节点的自身网格势能小于相对于某远程节点的势能,就把由该远程节点发出的消息进行转发,否则不转发。

而对于自身产生的更新消息,如果周围节点相对势能的平均值小于该节点的自身的势能,则该节点可以向周围的所有节点进行消息发送;否则不能进行消息发送。

这种方式的主要特点是:

消息从势能高的节点流向势能低的节点。

这类似于水流的形式,故称为水流式。

4.质点式本算法依然采用了网格势能的概念。

不同的是:

即使相对势能比自身势能要低,节点也并不一定可以发送消息。

在该算法中,引用了概率论的知识,即节点随机选取周围部分的节点进行消息发送。

这种行为有点类似于质点的活动方式,故而称为质点式。

1.3本课题研究的目标和意义

元数据被动分发对网络资源的消耗甚小,具有低代价性,但同时对于网络资源频繁变化的环境,元数据中存在很多错误,其他节点数据的准确性无法得到满足。

而元数据主动分发可以在最大可能上保证元数据的准确性,从而可以增加节点数据的有效性,但由于分发数据过多,对网络资源的使用也是最多的。

如何能设计出一种分发策略,将这两种分发技术的优点结合起来,这将是本文的工作核心。

本文通过对传统数据分发技术,特别式网格中的元数据分发技术的研究,提出了一种新的元数据分发机制,并设计实现了这种分发策略,通过仿真实验的对比验证,实验结果表明这种分发策略确实综合了主动分发的准确性以及被动分发的低代价性。

1.4本文组织结构

本文以数据网格为研究背景,介绍了传统的元数据分发技术,在此基础上提出了一种新的元数据分发框机制,并通过仿真实验与传统的分发技术进行了分析对比。

本文各章的内容安排如下:

第一章为绪论,介绍了本课题的研究背景,然后介绍了国内外的研究现状。

第二章为数据网格中的元数据分发技术,介绍了数据网格中的核心问题,并对元数据的概念、网格中元数据的分类、元数据常有的标准化问题以及元数据分发方式做了详细的分析和介绍,最后详细介绍了传统的数据分发技术以及数据网格中的传统元数据分发技术。

第三章为轮值会议元数据分发机制,首先介绍了设计此分发机制的背景知识,随后提出了一种新的元数据分发机制,最后对对这种分发机制进行了设计和实现。

第四章为仿真实验与性能分析,首先介绍了RMMD的原型系统开发,之后分析了OPNET仿真工具,随后详细介绍了仿真模型及实验算法,最后给出仿真实验结果。

第五章为总结与展望,最后为致谢与参考文献。

2数据网格中的元数据分发技术

2.1数据网格核心问题

数据网格在网格基本功能的基础上扩充数据管理功能,提供与信息有关的各种服务,其最核心的关键技术是元数据管理和存储资源代理。

良好地表示、存储、访问和使用大量资源信息是数据网格运行的基本前提。

在数据网格计算中,资源是分布的,资源及其提供者也是分布的,这些资源包括数据、计算机、设备、网络、外设、软件、服务、代码、人员等[17]。

元数据管理服务命名、描述、收集、组织和管理数据网格中的资源信息,这些信息就是用于描述资源、方法、数据集和用户的元数据。

为了实现命名的透明性,网格需要有效管理数量繁多的名字和属性,以及它们之间的关系;为了实现定位的透明性,网格需要有效管理数据集的定位信息;为了实现协议的透明性,网格需要有效管理数据资源的有关信息。

实际上,这些信息就是用于描述资源、方法、数据集和用户的元数据,概括地说,元数据目录为用户身份认证、数据定位、访问控制、数据复制等提供支持[18]。

2.2元数据的提出

2.2.1MDS元数据概念

元数据的概念起源于计算机科学,早在20世纪60年代,为了有效描述数据集,JackMayers就定义了Metadata一词的概念,其中文译名有多种,元数据是其当前在中国大陆比较通用的译名。

元数据最常见的宽泛定义“关于数据的数据”已经得到了普遍认可,但由于这一定义过于简单抽象,对它的认可只是表明在元数据的本质方面人们达成的共识。

事实上,人们对元数据的理解和认识还存在不少差异,迄今尚未形成一个真正统一的元数据定义[19]。

较宽泛的元数据定义:

元数据是描述一个具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现与获取的数据。

这是一个比较笼统的概念,它包括多个词汇:

元数据标准、元数据项、元数据记录等,可以认为是这些概念的统称。

元数据的产生对管理庞大的信息数据起着不可忽视的作用。

元数据的应用领域广泛,作用也各不相同,但总体来看,它们都具有一些共同的基本功能[20]。

1.描述功能

元数据的基本功能就是对信息资源进行描述,供用户读取以便了解自己所获信息是否是所需要的。

因此可以节约用户的时间和精力,也可减少网络中信息交换的浪费。

2.检索功能

元数据是提供检索的基础。

元数据将信息对象中的重要信息抽出,加以组织,赋予语意,建立关系,使得检索结果更加准确。

因此利用元数据进行简单、复杂或综合的信息查询,可以提高查询效率。

3.定位功能

元数据包含有信息资源的位置信息,由此便可确定资源的位置所在,促进网络中信息对象的发现和检索。

4.选择功能

根据元数据提供的描述信息,结合使用环境,用户便可对信息对象做取舍决定,选择适合用户使用的资源。

5.评估功能

元数据提供信息对象的各类基本属性,使用户在无需浏览信息对象本身的情况下就能对信息对象具备基本的了解和认识,参照有关标准,即可对其进行价值评估,作为使用的参考。

2.2.2元数据的分类

元数据的应用领域不同,对元数据就会有各自不同的分类方法[21]。

在网格数据管理环境下,一般将描述数据对象的元数据分为五种类型[22],如图2.1所示。

最底层的物理元数据包括描述物理存储系统数据对象的元数据和副本定位元数据,其中物理存储系统包括文件系统和数据库管理系统。

副本定位元数据提供将逻辑名与

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工作范文 > 行政公文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2