元数据与知识本体数图研究笔记Word下载.docx

资源描述

元数据与知识本体数图研究笔记Word下载.docx

《元数据与知识本体数图研究笔记Word下载.docx》由会员分享，可在线阅读，更多相关《元数据与知识本体数图研究笔记Word下载.docx（27页珍藏版）》请在冰点文库上搜索。

元数据与知识本体数图研究笔记Word下载.docx

近年来，知识本体在人工智能领域引起引起研究人员的兴趣，并越来越多的应用在万维网信息的表示、组织与管理上，一个重要原因就是当前对基于网络的知识共享和知识交换存在巨大期望和需求。

随着各种已有的和将要开发的Web应用的不断增多，人们希望不同的系统能够共享某个共同公认的知识库或者词汇（术语）集合，提供统一的领域模型，这样就极大地促进和实现了不同系统间的数据或知识共享、交换和重用。

数字图书馆作为一个分布异构环境中的知识体系，为知识的语义理解、计算机理解、计算机和人进行交互提供了应用框架和实现途径。

虽然知识本体在人工智能、知识表示中已经被广泛的讨论和实践，但在我国图书馆情报界及数字图书馆研究领域中的研究仅仅局限在概念的界定和初步的理论研究层面上，对于知识本体的方法论、编码语言、构建工具、具体构建缺乏实践。

本文在讨论知识本体在数字图书馆中的具体作用的基础上，对知识本体的语言、方法论、构建工具进行介绍和分析，希望能够为数字图书馆中知识本体的建设提供一个初步的理论和实践的基础。

数字图书馆功能需求

解决分布式网络环境下系统或资源间的互操作问题是数字图书馆技术的核心内容。

“异构”是指系统或资源在结构上的不同，互操作是指系统或资源之间的兼容性或关联关系。

万维网是目前最大的开放的分布式网络，可以看成由无数三层结构应用组成的大型资源库群（repositories）。

这些资源库群是彻底异构的，从数据结构、操作系统，到数据库系统，到应用系统；

从命名方式，到数据格式，到结构模型，到用户界面，都有可能完全不同，目前没有多少标准规范能够对这个各个层次的异构进行适当的约束，数字图书馆在这个方面尚缺乏完整解决方案，而且解决方案也不是唯一的。

从体系结构上来看，“语义万维网”和“Web服务”技术正在形成一套异构系统互操作问题完整的解决方案。

元数据提供了数字图书馆的语义基础，使资源有了基本的微观结构，但是元数据并不能完全解决信息系统的语义异构问题，包括资源采用不同元数据方案所造成的微观结构的异构问题以及资源对象之间存在的复杂的关联关系，知识本体在某种程度上可以看成是“元”元数据，信息系统中不同实体对象可能采用不同的元数据方案，不同的实体对象之间的关联关系非常复杂，知识本体能够对这些情况进行很好的描述，从而为信息的组织、管理以及检索、查询提供模型和方法。

异构是普遍存在的，元数据对于资源描述的特殊性和一般性的矛盾与生俱来，是其本身无法克服的。

或许随着标准化的进程，DC元数据等少数元数据格式将占据主导地位，然而永远不可能统一到仅有少数几种格式。

许多专业或专门领域仍然会有大量的元数据方案，这些元数据方案可能局限于一个狭小的领域，其本身就是一种领域本体，但是只有专业的元数据对于专业的应用才是最合适的，与学科外其他领域的互操作性考虑是次要因素。

在网络环境下要联接这些“信息孤岛”，必须有某种程度的互操作解决方案，而且最好是标准的解决方案，这就需要在元数据之上再建立某些机制，来灵活地实现信息系统之间的互操作。

知识本体的本质就是领域知识的共享和重用，标准化和形式化的领域本体能够为信息系统之间的高层互操作提供很好的工具。

什么是知识本体

知识本体（Ontology）被赋予了太多的含义，从抽象的哲学思辨，到实用的计算机推理。

牛津英语辞典里对“Ontology”的解释是“对于存在的研究或科学（thescienceorstudyofbeing）”，人工智能领域经常引用Gruber在1993年的定义“概念体系的规范”（specificationofconceptualization），1998年Studer等人在这个定义的基础上对于本体的特点给出了一个较为明确的解释：

“知识本体是对概念体系的明确的、形式化、可共享的规范说明”（见参考文献）。

直观地，我们可以把知识本体看成是“领域知识规范的抽象和描述，表达、共享、重用知识的方法。

”

知识本体作为领域概念及概念之间关系的规范化描述，这种描述是规范的、明确的、形式化的，共享的。

“明确”意味着所采用概念的类型和它们应用的约束实行明确的定义。

“形式化”指知识本体是计算机可读的（即能被计算机处理）；

“共享”反映知识本体应捕捉该领域中一致公认的知识，反映的是相关领域中公认的概念集，即知识本体针对的是团体而非个体的共识。

知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。

如果把每一个知识领域抽象成一套概念体系，再具体化为一个词表来表示，包括每一个词的明确定义、词与词之间的关系（例如“用”“代”“属”“分”“参”关系等）以及该领域的一些公理性知识的陈述（例如“所有的期刊论文都是出版物”）等，并且能够在这个知识领域的专家之间达成某种共识，即能够共享这套词表，所有这些就构成了该知识领域的一个“知识本体”。

最后，为了便于计算机理解和处理，需要用一定的编码语言（例如RDF/OWL）明确表达上述体系（词表、词表关系、关系约束、公理、推理规则等）。

在这个意义上，知识本体已经成为一种提取、理解和处理领域知识的工具，可以被应用于任何具体的学科和专业领域。

实际上图书馆领域很早就在进行类似的工作了，主题词表、分面分类的思想即是初始的萌芽，今天能够通过严格的形式化之后借助计算机的强大处理能力，可以说对网络知识的“整序”已经呈现出令人激动的曙光。

对某个知识领域每个人的认识从内容到形式都可能是不一样的，通用的高层知识本体（CommonOntologies）常常从哲学的认识论出发，其概念的根节点往往是时间、空间、事件、状态、对象等抽象术语，而且不一定需要形式化；

领域本体（DomainOntologies）专注于解决领域知识的抽象，较为具体，容易进行形式化和共享；

术语本体（TerminologyOntologies）常常表现为一个词表，概念关系的抽取较为随意和简单，不严格要求，甚至可以没有概念定义，例如著名的WordNet本体；

形式本体（FormalOntology）对于概念术语的分类组织要求较为严格，需要按照一定的分析原则和标准，明确定义概念间的显性、隐性关系，并明确各种约束、逻辑联系等，这类本体常常由术语本体发展而来，但却与术语本体没有截然的界限；

另外还有表现本体、任务本体、方法本体、混合型本体等等。

需要注意的是在图书馆界知识本体并不能简单地等同于传统图书情报领域的叙词表，它也不是一个孤立的技术，从宏观上讲与元数据一样是数字图书馆的一个重要组成部分和重要技术和工具，从微观上讲可以解决在一个系统中的它可以理解、表达为一组概念（如实体、属性、过程）及其定义和相互关系。

知识本体一般包含某一领域的概念网络并通过一种“属性-值”机制来描述每个概念的关键特性。

该网络可以是有向的也可以是非有向的。

它也可能是某一特定类型的网络,即一种概念层次（树）。

概念之间的关系可通过附加逻辑语句加以描述。

目前研究人员已经定义了不同领域的知识本体模型,并且有些知识本体模型已经投入了实际应用,这些知识本体模型的描述方式、形式化程度、建模目标等都各不相同.

如上所述，某个具体领域的知识本体不可能是唯一的，形式化方式手段也可以不同，但是不同的知识本体必须通过某种机制保证交换和映射的顺利进行，形式化的方式也需要标准化，这就是知识本体语言的作用。

知识本体的作用

知识本体的作用可以从两个角度来理解：

应用于所有领域知识规范化的一般作用和应用于数字图书馆建立语义模型的特殊应用。

从一般领域应用的角度来理解，知识本体主要有以下作用：

在人、机器（表现为软件代理）以及人与机器之间共享对于信息及结构的共同理解

这是知识本体开发最基本的一个目标。

采用术语和关系来编码领域假设。

举例说明，假设几个不同的web站点包含医药信息或者提供医药电子商务服务。

如果这些站点之间共享和发布他们共同使用的术语的知识本体，那么计算机代理就可以从这些不同的站点中抽取并集合信息，用这些集合的信息来回答用户的查询请求或作为其它应用的输入数据。

实现一定程度的领域知识的重用

促进领域知识的重用推动了知识本体的研究。

下面给出一个知识本体在领域知识重用方面的例子，比如有多个不同领域组织的模型均需要表示时间这一概念，时间的表示包括时间间隔的概念和定义、时间指针（points）、相关的时间测量方法等。

如果这些领域和组织中有一个组织详细开发了满足要求的知识本体，其他领域和组织就可以很方面简单的把这个知识本体应用到自己的领域中来。

此外，如果需要开发一个大型的知识本体，可以通过集成描述大型知识本体某些部分的多个现成的知识本体来实现。

也可以通过重用诸如UNSPSC的通用知识本体，并对这类知识本体进行扩展来满足我们对感兴趣领域的描述要求。

知识本体可以明确领域假设，使领域公理得到明确描述从而达成共知

通过知识本体可以明确领域假设，这些领域知识的明确说明对于要了解该领域的新用户了解该领域中的术语非常有用。

如果关于领域的知识发生变化，通过知识本体可以非常容易的改变关于该领域的假设。

如果关于领域的假设被隐藏到了程序语言代码中，则这些假设非常难以发现和理解，更难修改，特别是对那些不懂程序的人而言更是如此。

对于领域知识进行分析、明确，并使其形式化

一旦明确说明了一个领域中的各种术语，就可对领域知识进行分析。

当要重用现有知识本体和扩展现有知识本体时，对术语的形式化的分析就体现出它的重要价值。

通常而言，一个领域中的知识本体的目的不局限于构建它时的目的，而是为了领域知识的重用。

问题解决方法、独立于领域的应用和软件agents把知识本体和知识本体生成的知识库作为数据来使用，在webservices中作为单个service来使用。

一个应用了知识本体和元数据的数字图书馆系统，资源的组织在微观层面都是依据各种规范的元数据方案，资源之间的宏观联系依据知识本体所形式化的联系模型，知识本体使各类元数据方案联系成一个立体的知识网络，并能使资源按照知识网络中的不同属性，或同一种属性的不同编码体系，呈现出规范有序的知识地图，供浏览或检索。

并且还可以通过开放某些标准的元数据接口，或提供某些可供各式转换的映射表，向某些登记系统（例如UDDI）进行注册，从而达到更大范围的互操作。

在数字图书馆中知识本体的主要作用有如下一些：

提供与描述型元数据有关语义描述的知识地图

元数据是关于数据的数据，虽然在不同的领域中定义不尽相同，但是其基本的含义却是对资源对象固有属性的描述，无论对元数据怎样分类，总体来说，可以认为元数据都是描述性的。

许多专业或专门领域仍然会有大量的元数据方案，这些元数据方案可能局限于一个狭小的领域，其本身就是一种领域知识本体，但是只有专业的元数据对于专业的应用才是最合适的，与学科外其他领域的互操作性考虑是次要因素。

知识本体的本质就是领域知识的共享和重用，标准化和形式化的领域知识本体能够为信息系统之间的高层互操作提供很好的工具。

从而提供与描述型元数据有关语义描述的知识地图。

提供资源库领域知识的规范描述

当前不同的机构和部门根据自己的需要建设了形式多样，内容各异的资源库，这些资源库包括各种教育资源库、法律资源库、地方志资源库、传媒资源库、专业技术资源库等等，其中教育资源库涵盖了从小学、中学到大学、从个人教案到国家级的资源库，种类繁多。

如果能够充分利用这些资源库将会促进各行各业的知识共享和迅速发展，降低成本，避免重复建设。

但是当前实际情况却是这些资源库一般没有完整的结构、存在重复建设、数量庞杂、形式不规范等问题。

如果我们把知识本体引用到资源库的建设中，通过知识本体对资源库的领域知识进行识别和规范描述，达成领域内关于知识和概念及概念关系之间的共识。

这样引入了知识本体点各种资源库就能够实现真正的重用和共享，能够解决资源库建设中存在的问题。

提供元数据映射方案，集成到数字图书馆体系中的元数据服务中，成为协议的一部分

在数字图书馆中，存在着各种各样的信息系统，要实现这些异构、分布的系统之间的互操作是一个难题，解决异构系统之间的互操作的一种解决方案是采用元数据。

但是不同的系统中存在着不同的元数据方案，这些方案采用的标准不同，相同的术语可能存在不同的语义，不同的术语的语义又可能相关。

元数据知识提供的只是这些异构分布系统互操作的一个基础，所以需要在元数据之上采用一种新的技术和方法来实现这些元数据之间的互操作，才能够实现这些系统之间的互操作问题。

这种技术和方法采用高层互操作协议。

这种高层互操作协包括元数据交换协议和相关知识本体协议。

元数据交换协议能够实现元数据之间的映射，但对于元数据及信息系统之间的互操作，还要在元数据交换协议基础上采用知识本体，实现这些元数据方案之间的语义映射、不同的元素之间的关系定义及规则约束，从而真正实现这些异构分布系统之间的语义互操作。

提供智能代理与信息环境之间基于语义的理解机制

智能代理指的是一种计算机技术，这种技术模仿人的行为执行一定的任务，而且在执行这个任务的时候不需要或很少需要人的干预与指导。

智能代理的主要功能有，管理个性化的信息代理库，主要可以管理用户个人资料及其个人目录下的信息库；

信息自动通知，当信息用户指定了特定的信息需求之后，智能代理能够自动探测到信息的变化和更新，进而将其下载到数据存储地存放起来，同时智能代理能将该信息自动地提示给用户；

浏览导航，信息用户如果愿意在网上去冲浪，智能代理能分析到该用户所感兴趣页面所属领域，并能向该信息用户建议与该领域更密切的页面或链接；

智能搜索，信息用户在网上搜索信息时，往往为搜索到的信息太少或可用度差。

而智能搜索，能够根据信息用户的特定需求，进行信息过滤为用户提供更精确的搜索信息；

生成动态个性化页面，智能代理能依据信息是所存放的信息动态地生成网络页面，给信息用户提供一个适宜的而友好的浏览界面。

此外，智能代理还具有监督代理，协调与解决冲突等功能。

信息环境，指的是一个社会中由个人或群体接触到的信息及其传播活动构成的环境。

从上面对智能代理和信息环境的含义中，我们可以看出智能代理必须与信息环境之间实现语义理解，而不是仅仅通过关键词的匹配，才能够实现它的功能。

这种语义理解实际上包括，计算机与人之间和计算机与计算机之间的相互语义理解。

而知识本体在URI、XML、RDF、RDFS和元数据的基础上，提供领域知识的概念体系的确定，为智能代理和信息环境之间提供基于语义的理解机制。

跨平台、跨系统之间的通信中介

正如本文概念界定中指出，数字图书馆是提供异构信息系统的互操作的一种环境，在这个环境中，分布异构的不同信息系统之间可以实现互操作。

而实际情况是，由于这些信息系统是彻底异构的，从数据结构、操作系统，到数据库系统，到应用系统；

从命名方式，到数据格式，到结构模型，到用户界面，都有可能完全不同，目前没有多少标准规范能够对这个各个层次的异构进行适当的约束，数字图书馆在这个方面尚缺乏完整地解决方案，而且解决方案也不是唯一的。

知识本体作为语义万维网中的重要技术和工具，可以通过为不同的领域构建领域知识本体（domainontologies），然后再在这些领域知识本体之间建设上层知识本体（upper－ontology），结合其他技术来实现这些系统的互操作，实现这些系统跨平台和系统的信息系统之间的通信。

分布环境下查询请求的语义理解

现阶段查询请求主要是通过对查询语句进行解析，解析成一个个的单词然后进行关键词的匹配，把匹配的结果按照一定的算法的进行过滤和排序提供给用户。

一般没有对其语义进行解析。

有的系统是通过抓取web页面head区的元数据来提供一定的相关理解，或通过内容敏感链接来查找相关的信息。

对于查询请求的语义理解特别是基于自然语言的理解，和查询请求在分布环境下的分发依旧是一个难点。

假设一个领域中都建设了相应的知识本体，那么基于自然语言的查询请求就可以翻译成某一个领域知识本体中公认的概念组成的查询请求，再通过知识本体的影射和互操作实现对不同领域中相关主题和不同语言的相关主题的检索。

这样就实现了对查询请求的语义理解。

比如要查询“熟悉ＸＭＬ的专家”，如果按照关键词检索的方式，检索的命中结果中需要包含“熟悉”、“xml”、“专家”。

如果某个专家出版了一本关于XSLT的书，在该专家的著录中没有包含xml，那么这个专家就被排除在检索结果之外了。

采用知识本体则能够提高命中率。

看似简单的检索式涉及复杂的逻辑概念、语义和语法关系，如果一本书的主题是关于XSLT的，那么这本书的作者就符合检索表达式。

数字图书馆中的数据挖掘

数据挖掘是一个人机交互、不断重复的过程，专家的领域知识或背景知识的应用对挖掘过程具有补充和促进作用，经常用作引导发现过程以避免无意义的结果。

另外，一般数据挖掘方法仅仅在数据库内容上产生规则，规则难以理解，领域知识或背景知识的应用可产生易理解的规则。

知识本体是知识表示的一种形式，它能将领域知识表示成挖掘算法能够理解的形式。

知识本体已经被应用到数据挖掘中，这些于知识本体的数据挖掘主要有基于知识本体的多媒体数据挖掘、基于知识本体的web数据挖掘、基于知识本体的数据挖掘智能助手、网格计算中数据挖掘知识本体等方面。

在数据挖掘中我们可以采用基于知识本体的智能发现助手（IDA）来协助数据挖掘。

通过知识本体来形式化处理前要用到各种预处理的概念和处理、形式化演绎的各种算法、形式化处理后的一些转化和模型，从而可以根据不同的用户提供的数据挖掘的各种参数，满足用户的数据挖掘需求，有效改善数据挖掘的效果。

也可以通过用知识本体来形式化明确说明多媒体和web数据，来把知识本体应用到数据挖掘中去。

针对上一节提到的元数据标准规范的问题，知识本体正好从某种程度上弥补了元数据的不足：

●元数据方案不具有普遍适用性。

无法克服特殊性与一般性的矛盾，而形式化的知识本体可以提供一种在元数据方案之间自动映射的机制，通过语义Web服务的体系架构进行实现；

●元数据应用难以实现元数据方案本身的进化，而知识本体可以提供信息系统的其它视图，只需要通过自动或半自动的手段应用新的元数据方案；

●元数据方案自身难以对不同知识体系、不同“粒度”的资源进行描述，而知识本体正是起到这个作用，从而实现异构资源和系统之间的语义联系；

●单纯的元数据方案对于数字资源的整个生命周期的描述非常困难，而采用以诸如FRBR模型为基础的知识本体，这个问题便迎刃而解，不同生命周期的知识产权属性也非常易于描述；

除此之外，知识本体同时也在一定程度上解决了诸如灵活性和可扩展性问题，以及在资源集合层面的整合的难题。

知识本体如何实现功能

知识本体作为数字图书馆语义模型的形式化，主要功能体现在信息资源的组织和信息检索查询两个方面，如图1所示：

信息组织

信息检索

数字图书馆的资源不论是虚拟的还是实在的，不论涉及单个还是多个信息系统，其涉及的实体类型往往不可能是单一的，这些类型之间也往往具有复杂的关系，因此很难用一套平面的元数据方案进行数据组织。

例如傅雷翻译罗曼.罗兰的作品《约翰.克利斯朵夫》，曾经有译林出版社2002年、哈尔滨出版社2000年、中国友谊出版公司2000年、河南人民出版社1998年、安徽文艺出版社1990年……平明出版社1952年等数十家出版社几十个版本，并且还有翻译手稿、有声读物、衍生电影、戏剧剧本和声像资料、英文原版著作等相关资料，以及傅雷和罗曼罗兰生平资料等等，这些信息不论是否存在于分布的信息库中，都应该通过一定的方法进行有效的映射和描述，但显然现有的平面的元数据方法是无法实现的，但是利用本体模型（例如用ABC本体模型，见图2所示）却能清晰准确地揭示这些资源对象的各类属性及相互关系，这种描述方式对音像出版物等多媒体资源所涉及的复杂责任关系和版权关系特别有帮助。

知识本体模型原本就是对领域知识的归纳和形式化，目的就在于共享和重用，因此特别适合作为信息模型对知识系统进行描述、表达和呈现。

如果我们把图书分类法看成一种基本的简单的知识本体，一个书目数据库就可以按照分类法的层次结构组织成一个庞大的树，每一片叶子就是一本书。

这样可以形成一个简单的、一维的知

展开阅读全文