元数据在电子化学位论文中的应用探讨.docx

上传人:b****1 文档编号:2325917 上传时间:2023-05-03 格式:DOCX 页数:13 大小:23.06KB
下载 相关 举报
元数据在电子化学位论文中的应用探讨.docx_第1页
第1页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第2页
第2页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第3页
第3页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第4页
第4页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第5页
第5页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第6页
第6页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第7页
第7页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第8页
第8页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第9页
第9页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第10页
第10页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第11页
第11页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第12页
第12页 / 共13页
元数据在电子化学位论文中的应用探讨.docx_第13页
第13页 / 共13页
亲,该文档总共13页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

元数据在电子化学位论文中的应用探讨.docx

《元数据在电子化学位论文中的应用探讨.docx》由会员分享,可在线阅读,更多相关《元数据在电子化学位论文中的应用探讨.docx(13页珍藏版)》请在冰点文库上搜索。

元数据在电子化学位论文中的应用探讨.docx

元数据在电子化学位论文中的应用探讨

元数据在电子化学位论文中的应用探讨

 

金毅王绍平

(上海交通大学情报科学技术研究所,上海200030)

 

摘要目前,元数据的研究和应用方兴未艾。

网络电子资源使用元数据的优点是显而易见的,但只有基本的元素和修饰词比较一致,有了统一的标准,而在某些专业领域的应用上还不成熟,研究也不够深入。

本文参考国内外在电子化学位论文和元数据研究和应用的最新成果,探讨了元数据在电子化学位论文中的应用,总结了电子化学位论文中使用元数据的优点并提出一个初步的元数据集。

关键词学位论文电子化元数据DC

Thestudyonapplicationofmetadatainelectronicthesisanddissertation

JinYi,WangShaoping

(InstituteofInformationScienceandTechnology,ShanghaiJiaoTongUniversity,Shanghai200030)

AbstractThestudyandapplicationofmetadataareboomingnow.Theadvantagesofusingmetadatafornetworkelectronicresourcesareobvious.Butonlythebasicmetadataelementsandqualifiershaveunifiedstandard.Researchandapplicationinsomespecialareasarenotdeep.Thisarticlestudiesthelatestresearchonmetadataandelectronicthesis,anddiscussestheusageofmetadatainelectronicthesis,concludestheadvantagesoftheapplication,andproposesaninitialmetadataelementset.

Keywordsthesis,dissertation,electronic,metadata,DC

1引言

   随着信息技术的发展和Internet应用的日益普及和深入,网上资源成为获取信息越来越重要的途径。

提供数字化、无纸化的电子网络信息服务是图书馆等信息提供者的当务之急。

研究生学位论文是研究生申请硕士或博士学位的研究成果,对于相关专业的研究开发有重要的参考价值。

现在许多高校都在积极研究和开发学位论文的电子化,作为将来数字化图书馆的重要组成部分,无疑是很有意义的工作。

但网络信息资源的存储、获取、使用和传输与传统信息资源又有很大不同,如何在浩如烟海的网络信息空间中高效、迅速地做到信息的共享和交换,如何为电子化的网络资源提供有效的信息组织方式,是当今信息网络发展的一个热点。

   图书馆界和情报界对信息资源数据规范的研究已经很久了,元数据也不是新生事物,传统的图书馆卡片、图书的版权说明等都是元数据。

标准的元数据格式也已经广泛使用,如MARC(机读目录格式)、AACR(英美编目条例)等都是元数据的格式。

目前绝大部分的书目记录均采用上述格式,在数据检索的查准率和数据描述的丰富性上还没有其它的元数据格式可以超过它们。

但是MARC和AACR也有局限性:

需要在专门的软件系统中使用,不太适合Internet的环境;编制记录要经专业训练,花费较长的时间;不易处理动态的多媒体信息;程序修订复杂、缓慢。

由于以上这些局限性,在网络环境中传统的数据描述格式已跟不上形势发展的需求,许多元数据研究项目纷纷出现。

   众多的元数据研究项目中,在图书馆界和情报界影响最大、应用最为广泛的就是DC(DublinCore)MetadataElementSet,既都柏林核心元数据集。

从1995年产生,经6年多的研究和探讨,DC已被翻译成多种文字,用户遍及世界各地。

许多国家已经将DC纳入国家标准中描述电子信息的一个部分,其影响正在不断扩大。

电子化的学位论文因其特点,非常适合采用以DC为基础的元数据来描述,具有很好的应用前景。

2电子化学位论文采用元数据的优点

   DC元数据集由15个基本元素组成,这15个基本元素称为“简单DC”,分三个部分:

内容描述部分、知识产权部分和外形描述部分。

根据DC的可选择性原则,可以简化着录项,最低限度只要7个元素(题名、主题、出版者、日期、类型、格式和标识符)就可以了。

为了描述需要详细着录的资源,DC又推出了“复杂DC”,引进了修饰词的概念,用于进一步明确元数据的特性。

这样可以把MARC、AACR的优点和各种已有的分类法、主题词表等控制语言吸收进来,极大地丰富了DC的描述性,并允许DC的地方版在15个基本元素的基础上增加新的元素和修饰词。

DC的整个元素集是可扩展的,每个元素可以重复使用或有选择地使用,而且还可以拥有子类型和子模式来增强功能。

这样,DC就具有可选择性、可修饰性、可重复性和可扩展性的优点。

在电子化学位论文中使用以DC为基础的元数据能充分发挥DC元数据在描述电子信息资源的优势,具有以下优点:

(1)数据结构简单,可读性强。

DC只有15个基本着录项,而且可以重复使用或有选择地使用。

通过使用修饰词,可以方便地扩展和描述电子资源信息。

相对于MARC数据格式,DC的数据结构大大简化了。

而MARC元数据正如其名字本身所说明的,是计算机可读及处理的数据,对人而言,可读性很差,对软硬件平台的依赖性很强。

DC元数据使用标记语言的格式,兼容性和不依赖于软硬件平台的独立性都很强。

   在电子化学位论文中考虑采用的元数据(参见表1)大部分能在DC元数据集中直接得到,一些描述学位论文所需要的扩展信息可以通过使用修饰词和扩展元素的办法解决。

(2)着录方便,生成记录简单快速。

使用者无需经过专业的培训就可以为自己的资源创建元数据,着录格式很容易掌握和理解。

上海交通大学从1996年开始要求研究生在论文答辩后提交学位论文的电子版本,在确定学位论文使用的元数据后,就可以让学生在网上提交电子版本论文的同时,填写一张简单的着录表格,经程序检查、处理后直接生成学位论文的元数据。

这样就可以让学生自己完成学位论文的数据着录,既大大减少了图书馆数据着录人员的工作,也使学位论文的数据可以在第一时间转入数据库并提供网上检索,数据滞后的时间将从几个月缩短为几天,甚至当天录入当天即可在网上检索到。

而目前采用传统的着录方式,必须使用专用的编目软件,着录人员要经过一段时间的严格培训,并且编目方法也要复杂得多,学位论文的数据无法在短时间内录入、转换入库,网上检索就更滞后了。

   (3)DC是为电子资源量身定制的。

DC本身就是随着信息技术的发展和Internet应用的日益普及和深入应运而生,其可选择性、可修饰性、可重复性和可扩展性的特点可以有效揭示电子资源的特征,为网络电子资源的分类、组织和索引提供更好的途径。

DC描述的重点是电子资源的内容、内部结构及应用和管理,而不象传统的着录方法有很多外形特征的描述。

使用DC,能很好地反映电子化学位论文的内容和特征,比如学位论文的数据格式、全文指针、学位级别、保密级别等,都可以使用恰当的DC元素来反映。

    (4)更适合在Internet上使用。

电子化学位论文最终是应该在Internet上检索和浏览的。

现在网上的搜索引擎,如Yahoo、Sohu、Sina等的工作方式,主要是通过自动搜索软件到站点抓取网页,将网页内容索引后建立数据库提供检索。

网页使用的HTML语言有一个META标签可以定义网页的属性,一般常用来定义网页的主题词和摘要,这样搜索引擎可以直接将网页的主题词和摘要收录进数据库。

否则就只能对整个网页的内容进行索引,这必然使查准率受到影响,检索效率低下。

    目前,DC元数据的存储与管理大致有以下几种方法:

1)嵌入在信息资源中

2)与通信协议捆绑

3)存储在数据库中

4)独立的元数据文件

   其中将DC元数据嵌入在信息资源中的方法目前使用得较多,一个最主要的应用领域是基于HTML的应用。

根据“DC元数据在HTML中的编码规则”(即RFC2731),DC元数据在HTML中的应用主要与两个HTML标签有关,一个是上面提到的META标签,另一个是LINK标签。

通过使用这两个标签,DC元数据就方便地嵌入到HTML文件中。

这样搜索引擎可以有效地抓取和索引网页文件中的DC元数据。

本文的第3、4部分介绍了具体的使用方法和一个实例。

虽然将DC元数据嵌入到HTML文件中使用方便,句法简单,但考虑到HTML本身的结构性不强,扩展能力和描述能力较差,以后的应用方向应该是与XML相关,基于RDF(ResourceDescriptionFramework)的形式。

XML在结构化、扩展性、内容描述等方面都要大大优于HTML,是Internet发展的一个重要方向。

DC元数据可以很好地嵌入到基于XML的RDF框架中,适应将来技术发展的需要,也为不同元数据体系之间提供更好的互操作性。

   此外,与通信协议捆绑也是一个很有前途的应用方向。

比如与图书情报界使用较多的Z39.50协议相联系,DC元数据可以得到更为有效和广泛的使用。

同时,DC元数据也可以象传统的元数据一样,存储在数据库中或作为独立的元数据文件存在。

在Internet的网络环境下,DC元数据的存储与管理有多种选择和很大的灵活性,有着乐观的发展前景。

3电子化学位论文使用的元数据集

    确定电子化学位论文使用的元数据集,综合考虑了以下几个方面的因素:

(1)目前国内学位论文使用的数据格式,比较统一的是由国家教育部CALIS支持并资助的高校学位论文数据库项目所采用的数据规范,该项目由进入“211工程”的62所学校合作建设,其数据格式也被参加的学校所共同采用。

该数据格式定义完整、详细,遵循国家标准GB/T2901-92(书目信息交换用磁带格式),并使用标准推荐执行的“中国公共交换格式(CCFC)”着录。

电子化学位论文使用的元数据主要参考了该数据规范。

(2)在国外,电子化学位论文研究比较早,也比较有成果的是美国的ETD(ElectronicThesisandDissertation)项目。

该项目目前有120个成员,包括105所大学和15个研究所。

上海交通大学是中国大陆唯一一所参加该项目的大学,从1999年开始与ETD项目组开展关于研究和实现学位论文电子化的交流,为自己的学位论文电子化建设提供了许多有益的建议。

ETD项目组在最近的会议上提出了ETD互用性元数据标准(ETD-ms:

anInteroperabilityMetadataStandardforElectronicThesesandDissertations,Version1.00),该标准定义了用于描述电子化学位论文的元数据标准。

为了与ETD项目成员之间的数据规范保持一致,以利于数据共享和交换,我们在电子化学位论文使用的DC元素集中保留了ETD互用性元数据标准的所有元素。

(3)OCLC的合作在线资源目录(CooperativeOnlineResourceCatalog,简称CORC),是一个在网络环境下为本地或网络电子资源建立元数据的系统。

CORC系统为创建网络电子资源元数据提供了很好的平台,通过专门的自动工具和服务功能,可以让使用者采用自己熟悉的标准(如MARC)来完成元数据的着录和制作,并能以各种格式(如DC、XML等)输出记录。

CORC为维护现有记录和通过馆际合作提供网上电子资源起到很好的示范作用,显示了元数据应用的广阔前景。

CORC的数据格式和着录规范也是我们在确定电子化学位论文使用的元数据集的重要参考。

(4)另外一个给我们提供很多有益参考的站点是关于推广可互用在线DC元数据标准的论坛,地址是http:

//dublincore.org,该站点上有许多DC元数据的研究和应用文档,以及国际会议、合作项目等的最新动态。

其不断更新的DC图书馆应用纲要(DC-LibraryApplicationProfile,DC-LAP)总结了DC元素及应用的最新研究成果,是关心DC元数据发展应该密切注意的。

                             表1电子化学位论文使用的元数据集

元素

说明

注释

dc.title

论文题名

必选

dc.title.alternative

并列题名

 

dc.creator

论文作者

必选

dc.subject

主题标识

必选

dc.description.abstract

文摘

 

dc.description.note

载体外形描述、记录来源、注释项

 

dc.description.release

版本

 

dc.publisher

出版单位

 

dc.contributor

其它贡献者,如导师

必选

dc.contributor.role

其它贡献者角色

 

dc.date

论文完成日期

必选

dc.type

文献类型

 

dc.format

格式

 

dc.identifier

全文指针

 

dc.language

文献语种

必选

dc.coverage

范围

 

dc.rights

保密级别

 

thesis.degree.name

学位级别

必选

thesis.degree.level

教育层次

 

thesis.degree.discipline

作者单位

 

thesis.degree.grantor

授予单位

 

dc.date.Submitted

记录生成日期

#

dc.format.medium

文献载体

 

dc.identifier

国际标准书号

 

dc.identifier.callNumber

馆藏索取号

N必选

dc.contributor.attribute

其它贡献者单位

#

dc.contributor.nameCorporate

团体责任者

*

dc.date.published

出版日期

*

dc.subject.class

分类标识

 

注:

表中黑体元素为ETD互用性元数据标准(ETD-ms)中所确定的元素

“#”参照dublincore.org的DC-LAP

“*”参照OCLC的CORCDC着录规范

“N”为新增加的修饰词

对表1中元素的一些说明:

   大部分元素的用法和含义与DC元数据集的基本规范一致,本文不再详细介绍,具体可参考http:

//dublincore.org。

下面对与学位论文相关的以及新增加的元素作简要的介绍,其中以“thesis”开头的是ETD互用性元数据标准(ETD-ms)新增加的元素,是专门用于描述电子化学位论文的。

(1)dc.title.alternative(并列题名),学位论文的英文题目。

(2)dc.description.release(版本)说明学位论文的版本,应使用复数。

(3)dc.contributor.role(角色),其它贡献者的角色,如导师、答辩委员会成员等。

(4)dc.type(文献类型),说明资源内容的性质,ETD采用“ElectronicThesisorDissertation”;dublincore.org用“Text”,见http:

//dublincore.org/documents/dcmi-type-vocabulary/

(5)dc.format(格式),指学位论文的数据格式(标准MIME类型),上海交通大学要求提交Word格式的学位论文,使用Application/msword,其它类型可以参照http:

//www.isi.edu/in-notes/iana/assignments/media-types/media-types

(6)dc.identifier说明学位论文对应的全文指针,是一个可以浏览和下载该学位论文全文的地址,一般是是URI(统一资源标识符,UniformResourceIdentifier)。

(7)thesis.degree.name(学位级别),论文申请的学位级别,如工学博士、理学硕士等。

(8)thesis.degree.level(教育层次),说明论文的教育级别,如硕士、博士、博士后等。

(9)thesis.degree.discipline(作者单位),通常是作者所在系、专业,或论文涉及的项目名等。

(10)thesis.degree.grantor(授予单位),授予学位的单位名称。

(11)dc.format.medium(文献载体),一些早期的学位论文尚没有电子化,本元素指明其载体特征,如印刷体、缩微体等。

(12)dc.identifier.callNumber(馆藏索取号),说明学位论文的馆藏索取号。

虽然将来印刷体的学位论文使用会越来越少,但一段时间内,印刷体和电子板两种形式是并存的,同时还有大量尚没有电子化的早期学位论文,馆藏索取号可用于联系两种形式的学位论文和获取印刷体的学位论文。

但DC元数据集里没有相对应的元素,我们就增加了这个表示馆藏索取号的元素。

(13)dc.subject.class(分类标识),采用“中国图书馆分类法”,通过scheme=“CLC”加以说明。

4学位论文元数据嵌入在HTML文件中的一个例子

   下面是一篇电子化的博士学位论文,其元数据嵌入在一个HTML文件的标签对中。

   Metadatasampleofadissertation

   

//purl.org/DC/elements/1.0/">

   

//www.ndltd.org/standards/metadata/">

   

   

   

   

   

本文针对内模控制的特点,在FIR型控制器结构下,提出了三种直接利用受控对象脉冲响应来实现内模控制的新方法,并将其扩展到一般的多变量控制系统。

对于同时存在参数与结构时变的受控对象,研究了自适应内模控制的控制方法与控制特性。

对于不稳定受控对象,则提出了利用多重输出误差反馈的极点配置内模控制策略。

">

   

   

   

   

   

   

   

   

   

193">

   

   

...

5小结

目前,元数据的研究和应用方兴未艾。

网络电子资源使用元数据的优点是显而易见的,但只有基本的元素和修饰词比较一致,有了统一的标准,而在某些专业领域的应用上还不成熟,研究也不够深入。

元数据在电子化学位论文中的应用,正引起越来越多的兴趣,其标准和元素集的确定,需要更多专家学者的参与。

本文参考国内外在电子化学位论文和元数据研究和应用的最新成果,总结了电子化学位论文中使用元数据的优点并提出一个初步的元数据集,抛砖引玉,希望能得到更多的意见和建议,以便进一步完善和推广元数据在电子化学位论文中的应用。

                            参考文献

1吴建中.DC元数据.上海:

上海科学技术文献出版社,2000

2林蓉等.一种基于事件的都柏林核心(DC)数据模型.情报学报,2000(3)

3李林华.都柏林核心与网络信息资源编目.图书馆杂志,2001

4NetworkedDigitalLibraryofThesesandDissertations,http:

//www.ndltd.org/

5DublinCoreMetadataInitiative,http:

//dublincore.org/

6OCLCCooperativeOnlineResourceCatalog,http:

//www.oclc.org/corc/

   文章发表在:

大学图书馆学报2002年第2期

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2