国内外主要本体库比较分析研究.docx

资源描述

国内外主要本体库比较分析研究.docx

《国内外主要本体库比较分析研究.docx》由会员分享，可在线阅读，更多相关《国内外主要本体库比较分析研究.docx（25页珍藏版）》请在冰点文库上搜索。

国内外主要本体库比较分析研究.docx

国内外主要本体库比较分析研究

白如江/于晓繁/王效岳

2012-10-2211:

13:

10　　来源：

《现代图书情报技术》（京）2011年1期

　　【英文标题】TheComparativeAnalysisofMajorOntologyRepositoryatHomeandAbroad

　　【作者简介】白如江、于晓繁、王效岳，山东理工大学科技信息研究所（淄博255049）

　　【内容提要】介绍4种国内外主要的通用本体库WordNet、DBpedia、Cyc、HowNet和两个比较成功的专业领域本体库生物医学和企业领域本体库，从描述语言、存储方式、查询语言、构建平台和应用领域5个方面分别对4种通用本体库和领域本体库进行比较分析，为国内外学者在本体库及其应用研究方面提供帮助。

　　ThepaperintroducesthemajorgeneralOntologylibrariesindomesticandforeign:

WordNet、DBpedia、CycandHowNet,andthesuccessfulprofessionaldomainOntologylibraries:

BiomedicalOntologyandEnterpriseOntology.Thenitseparatelycomparesandanalyzesthemfromfiveaspectsasthedescriptionlanguage,storagemode,querylanguage,platformbuildingandapplicationtoprovideassistanceforthestudyinOntologylibraryanditsapplication.

　　【关键词】本体库/WordNet/DBpedia/Cyc/HowNet/生物医学本体/企业管理本体Ontologylibrary/WordNet/DBpedia/Cyc/HowNet/BiomedicalOntology/EnterpriseOntology

　　1背景

　　本体（Ontology）的概念最早起源于哲学领域[1]，作为语义基础被广泛应用于信息检索、人工智能、语义网络、软件工程、自然语言处理、电子商务和知识管理等领域。

为满足企业界和学术界的需求，现已开发出了多种通用的常识性本体库系统（如WordNet、DBpedia、Cyc、HowNet、FrameOntology、DublinCore等）和大量的领域本体库系统。

　　领域本体库系统方面存在两个问题：

（1）不同的领域积极开发自己领域的本体，如生物医药本体、金融本体、法律知识本体、电子政务本体、新闻本体、旅游本体、生物基因本体等。

（2）同一领域也存在两种情况：

由于地域的差异，同一知识范畴出现了不同版本的本体和本体模型；由于领域的概念结构庞大，逻辑结构复杂，产生多个相互关联的本体，这些本体组合起来，共同表示某一领域的知识范畴。

　　本体如此广泛应用的原因是：

它提供了对特定领域知识的共享和共同认识，以便实现人机应用系统中的通信。

利用本体技术构建的领域知识库不仅可以清晰地描述领域中的概念及其关系，还可以实现领域知识的共享和重用，且有利于领域知识库的管理和维护。

　　国外对本体的研究项目很多，研究成果已十分丰富，并且建成了许多正在使用的开源本体知识库系统。

国内对此的研究十分有限，与国外存在很大的差距。

通过对文献的搜集发现，目前国内外关于本体库比较分析研究的论文很少。

本文选取了目前4个主要的、较为成熟的通用本体库系统：

WordNet、DBpedia、Cyc、HowNet和两个专业领域的领域本体，从描述语言、存储方式、查询语言、构建平台和应用领域5个方面分别进行比较分析，希望为自然语言处理等的研究和科研人员在本体库的选取和使用方面提供帮助。

　　2国内外主要的本体库

　　2.1WordNet

　　WordNet（http:

//wordnet.princeton.edu/）是由美国普林斯顿大学的Miller带领的一组心理词汇学家和语言学家于1985年起开发的大型英文词汇数据库，它是传统词典信息与现代计算机技术以及心理语言学研究成果有机结合的一个产物[2]。

目前与WordNet相关的研究已经涉及德语、法语等其他多种语言，被认为是计算语义学、文本分类等相关领域研究者可获取的最为重要的资源[3]。

　　WordNet以同义词集（Synsets）为单位组织信息，对查询结果的演绎比较符合人类的思维定式。

同义词集是在特定的上下文关系中可互换的同义词集合。

它与普通词典的最大区别在于它根据词义而不是词形来组织词汇信息。

WordNet关心词与词之间的联系，认为词的意义在于词与词之间的区别和联系，而词与词之间的组织方式显示了词概念之间的区别和关联；词性反映了词汇所包含的概念的类别，在组织中将词汇分成5个类：

名词、动词、形容词、副词和虚词。

实际上，WordNet仅包含名词、动词、形容词和副词，忽略了英语中较小的作为语言句法成分的虚词集。

WordNet使用同义词集表示一个语言符号，重点分析名词、动词、形容词和副词的语义关系，构建了如层级系统、N维空间关系、蕴含关系等关系系统，通过这些关系来表征语言的意义。

　　WordNet的各个版本均可以从普林斯顿大学认知实验室的网站上（http:

//wordnet.princeton.edu/wordnet/）免费下载。

WordNet3.0数据库中所包含的词汇统计数据，如表1所示。

　　因WordNet3.0版本对于安装系统的要求较高，可选择WordNet2.1版，使用WordNet浏览器界面，深入了解其用途。

图1是笔者在浏览器中输入“mouse”，了解与“mouse”相关的信息。

可见，单词“mouse”既有名词的词性也有动词的词性，点击“Noun”选项可以查询其同义词“Syonoyms”、并列术语“CoordinateTerms”、上位词“Hypertms”、下位词“Hyponyms”、摘要“Brief”、下位词“Hyponyms”、完整“Full”、组分概念“Holonyms”、规则的部分词“Meronyms”、继承的部分词“Meronyms”、关联格式的变形“DerivationallyRelatedForms”和歧义参数“Familiarity”。

点击“Verb”选项可以查询其以估计频率排列的同义词、以相似性分组的同义词、并列术语、上位词、关联格式的变形、句式框架“SentenceFrames”和歧义参数。

　　图1WordNet2.1的浏览界面

　　如果查询的是形容词，系统可以提供以下信息：

同义词和相关名词性概念、反义词、该词的值、关联格式变形和歧义参数等。

如果查询的是副词，可以提供：

同义词和以其为词干的形容词、词域和歧义参数。

　　尽管WordNet3.0版本比最初的版本无论是在词汇量还是在用户界面上都有了很大改进，但它的查询范围仍然只限于英文的名词、动词、形容词和副词4种词汇。

WordNet将代词归入名词概念中，而定冠词则无法查询。

本质上，WordNet更像一部电子词汇数据库（AnElectronicLexicalDatabase），与真正意义上的本体库相差甚远。

由于系统原始条件的缺陷以及词库数据庞大而又无法再进行重新标引等限制因素，WordNet注定不能成为具有推理功能的系统，而只是“一部基于网络的叙词表检索系统”[4]。

　　2.2DBpedia

　　知识库在提高网络智能和智能搜索方面起着重要的作用，同时也支持信息的集成。

由大量人员维护的维基百科（Wikipedia）是人类知识资源的知识库。

DBpedia（http:

//dbpedia.org/About）项目通过从维基百科的词条里抽取结构化数据，以更加有效的方式获得信息来平衡这个巨大的知识资源。

基于维基百科数据集，DBpedia允许用户进行复杂问题的查询，并链接网上其他数据集到维基百科数据集[5]。

　　目前，DBpedia描述340多万个事件，其中150万个一直以本体的方式进行分类，包括312000个人物、413000个地方、94000个音乐专辑、15000个视频游戏、140000个组织机构、146000个物种和4600种疾病。

DBpedia数据集有特色的标签，它从90多种语言中提取320万个事件、841000种链接图片、5081000个外部网络连接、9393000个外部链接到RDF数据集、565000个维基百科类别和75000个YAGO类别。

DBpedia包含的10亿多条信息中有2.57亿是从维基百科的英文版本中提取的，7.66亿是从其他语言的版本中提取的（数据来源http:

//wiki.dbpedia.org/Datasets）。

图2展示了DBpedia强大的链接数据。

　　图2DBpedia的链接数据资源

　　（注：

图片来源：

http:

//richard.cyganiak.de/2007/10/lod/，最后更新日期2010-09-22）

　　DBpedia的优势在于：

它涵盖很多领域，可代表真实团体的一致意见，能自动地随着维基百科的变化而发展，是真正多语种的。

DBpedia工程展示了一个多种类知识的丰富语料库，这些知识是致力于建立结构化知识库的人们大规模的共同合作的结果。

DBpedia知识库涵盖了一系列的不同领域和这些领域的实体联系，代表了数以千计的维基百科工作者对概念的一致意见并且随着概念的改变而进化。

　　2.3Cyc

　　Cyc（Lenat[6]发起。

Cyc是一个试图综合日常生活常识，建立综合的本体库和数据库的人工智能工程，其目标是使人工智能具有与人相似的推理能力。

　　1994年度的图灵奖获得者EdwardFeigenbaum在2001年1月曾说过：

“智能系统的动力是系统所包含领域的知识……Cyc不仅有世界上最大的知识库，也是技术论的最佳代表。

”[7]Cyc旨在提供一种可以被其他程序灵活使用的深层次的理解。

它的知识库服务器是一个非常庞大的多语境知识库和Cycorp集团自主开发的推理引擎。

Cycorp集团的目标是打破“软件开发的瓶颈”，构建通用性常识知识基础——集结了术语、规则和关系的语义底层，这一知识库的成功将带来大量的知识密集型产品和服务。

Cyc技术包含以下内容，这些技术之间的联系如图3所示[8]。

　　图3Cyc技术之间的联系

（1）Cyc知识库，利用形式语言CycL，形式化地表达了大量的人类基础知识：

事实、规则和用于推理的启发式。

知识库的术语构成了庞大的词表和断言集合。

Cyc知识库被分成了数以千计的微理论，每个微理论都由一串断言构成。

微理论机制允许Cyc独立地维护看起来具有矛盾对立性的断言，并促使Cyc系统提高专注于推理过程的能力。

目前，Cyc知识库包括接近50万条术语、1.5万个关系类型和500万条关于这些术语的断言，以及数以万计的手工录入和解释术语的断言。

另外，术语合并的功能还可以自动生成数以百万计的非原子化术语。

（2）Cyc推理引擎，可以执行通用的逻辑学推理，还带有AI领域著名的推理机制。

Cyc也包括一些特殊目的的推理模型以处理一些特殊类别的推理。

　　（3）CycL，即Cyc表示语言，是一种非常灵活的知识表示语言。

本质上说，CycL是一种增量式的一阶谓语逻辑微积分，它具有易于操作的等式扩展、缺省推理机制和一些二阶谓语逻辑的特征。

Cyc用一种定义形式，包括特殊名称假设，能恰当地接近人类的假设。

　　（4）自然语言处理子系统，由三个部分组成：

词典部分、语法分析器和语义注释器。

词典部分是自然语言系统的主干，包含英文单词的语法和语义信息。

每一个单词都用一个Cyc常量来表示。

语法分析器利用松散的基于控制和构建原则的短语结构语法，还利用了大量的与上下文无关的规则为输入的句子构建自底向上的树状结构。

语义注释器是Cyc自然语言系统中的语义单元，输出的都是纯CycL语句，一个经过解析的句子可以被立即加入到知识库中。

语义单元在解译句子的每一步骤中都会使用知识库中的知识。

利用常识来指导解译的程序，可以解决有关自然语言模糊性的任何疑难问题，从而摆脱单纯依靠统计技术的局限。

　　（5）Cyc语义集成的数据传输总线，如图4所示。

信息有很多存储格式，包括结构化、半结构化和非结构化三种。

Cyc通常将非结构化信息视为无用信息，保留经过注释的可以为人所获取的信息。

Cyc将每一条数据库记录都看做是知识库中隐含的断言，这些断言在进行推理时很有用。

　　（6）Cyc开发工具包，Cyc系统包含了各种界面工具，允许用户浏览、编辑和扩展Cyc知识库，向推理引擎提出检索式，支持自然语言和数据库集成模块间的互操作。

最常用的工具是Cyc的HTML浏览器，允许用户以超文本方式查看知识库，还包含对知识库进行查询和编辑的功能。

　　图4Cyc语义集成的数据传输总线

　　（注：

图片来源：

　　OpenCyc是Cyc技术的源代码版本，可通过网络获取（API[9]。

　　2.4HowNet（知网）

　　HowNet（知网）（

　　知网是一个以英汉双语所代表的概念以及概念的特征为基础，以揭示概念与概念之间以及概念所具有的特征之间的关系为基本内容的常识知识库。

知网的中文信息结构的描述对象是：

由中文词语所表述的、由知网所规定的最基本的运算单元，如万物、部件、属性、属性值、事件、时间和空间等。

信息结构的描述内容是：

中文词语的各个组成部分之间的、由知网所规定的动态角色关系或属性。

通过对信息结构的揭示，可以认识到中文如何描述诸如万物、部件、属性等概念，或如何由简及繁地表达意义，进而揭示中文的语言结构的规律[10]。

知网的中文信息结构库数据如表2所示。

　　HowNet基本组织单位是概念，概念由义原定义。

概念与概念之间的关系、概念与义原之间的关系以及义原与义原之间的关系构成了知网的知识体系。

义原之间存在复杂的关系，组成了复杂的网状结构。

（以下关于HowNet的介绍是根据DatabaseMark-upLanguage，KDML）。

　　作为一个知识库，知网的知识结构与其说是知识树不如说是知识图表，它致力于展示概念的一般和特殊属性。

例如，对于医生和病人，人是一个一般属性的概念，人的一般属性被记录在概念的主要性能中，作为治病的代理机构对于医生是一个特殊的属性，就像疾病对于病人一样是特有的属性。

一个人就是一个一般的属性，但是又享有独有的特性——价值、名字、富有、贫穷、漂亮或者是丑陋。

知网不遗余力地反映概念内部关系和属性内部关系的复杂性[11]。

　　从本质上来看，知网词库中虽然蕴含了大量的概念与概念、属性与属性之间的关系，但是系统仍然以词汇作为概念的基本单元，不具备本体系统的推理、知识发现等功能，所以知网本身也不是真正的基于本体的系统，它可以作为汉英机器翻译的语料库使用。

　　2.5BiomedicalOntology（生物医学领域本体）

　　现存的生物医学领域的表征足够用于信息检索的目的，但是这些表征的知识组织不适用于计算机推理。

计算机推理需要本体提供的有原则的、一致性的组织结构。

因此生物医学领域使用各种方法来开发本体，可以从现有的资源中获得本体，也可以通过其他的知识资源获得。

（1）转化医学本体（TranslationalMedicineOntology，TMO）

　　转化医学本体TMO（http:

//esw.w3.org/HCLSIG/PharmaOntology）的研究力量来源于WorldWideWeb联盟的医疗保健和生命科学利益集团，并且是生物医学本体国家中心的一部分。

TMO是一个高级的、以患者为中心的本体，它架构了现存的开源领域本体，并为关联和集成全部转化机构以患者为中心的数据提供了框架。

转化医学本体为架构转化医学的多个领域提供了术语，这些领域包括假说管理、探索研究、药物开发和规划、临床研究和临床实践。

首先从使用案例进行设计，这个本体包含能够映射到其他本体的必要的术语。

它作为一个全局的模式服务于数据集成，同时便于异质资源的复杂查询的规范化。

　　转化医学取决于综合的集成患者的全部数据以评估并促进药物的发展。

本体在自动集成患者相关信息数据以促进探索研究、假说管理、规划、临床试验和临床研究方面发挥了重要的作用。

语义Web技术能够确保使用明确的语义集成异质的数据、对于数据聚集提供丰富和定义明确的表达、在原始数据的基础上获得新知识的逻辑应用。

知识表征的4个主要的语义Web标准是：

RDF（ResourceDescriptionFramework）、RDFS（RDFSchema）、OWL（WebOntologyLanguage）和作为查询语言的SPARQL。

开发OWL本体支持药物、药物基因和临床试验，并逐渐应用于医疗保健和生命科学中。

　　TMO定义了横跨材料实体的75种类别（如分子、蛋白质、细胞系、药物制剂）、任务（如项目、目标、有效成分）、进程（如诊断、研究、干预）和信息实体（如剂量、作用机制、迹象\症状、家族史）。

TMO扩展了BasicFormalOntology定义的基本类型和关系本体中的使用关系[12]。

TMO能够使科研人员回答新问题，更快地回答现存的科学问题，也能够帮助制药公司塑造以患者为中心的信息模型，以明确药量和次佳安全的化合物的早期检查。

（2）UMLSSemanticNetwork（UMLS语义网络）

　　美国国家医学图书馆开发了一体化医学语言系统UMLS（UnifiedMedicalLanguageSystem）（http:

//www.nlm.nih.gov/research/umls/），它的目标是通过获得一体化生物医学资源的词表为大量的生物医学资源的集成提供解决方案。

目前UMLS连接了生物医学领域的60个受控词表。

UMLS覆盖范围十分广泛，不仅包括临床医学的很多概念，还包括大量的生命科学等扩展领域的概念。

为提供一个全面的概念框架，UMLS开发了一个上层本体UMLSSemanticNetwork[13]。

UMLSSemanticNetwork是UMLS开发的三个知识库资源之一，这个网络为UMLS词表的所有概念提供统一的分类。

　　UMLSSemanticNetwork（http:

//www.nlm.nih.gov/pubs/factsheets/umlssemn.html）包含：

　　①一套广的主题类别或语义类型，目的是为UMLS词表的所有概念提供统一的分类。

　　②一套有用的重要的存在于语义类型之间的关系或语义关系，这部分文档为语义网络提供概述，并且描述语义网络的文件。

　　语义类型的主要组群包括：

有机体、解剖学结构、生物学功能、化学品、事件、物理对象的概念或观点。

这个语义网络有134个语义类型，用UMLS为所有的概念表示提供了一个一致性的类别。

语义类型之间的54个链接展示网络的结构并表现了生物医学领域的重要关系。

语义类型中的主要链接是“is-a”链接，这种链接确立了网络类型的层次，用于决定有效地分配词表概念的最具体的语义类型。

也有一套无层次的关系，主要分为5种类型：

physicallyrelatedtospatiallyrelatedto、temporallyrelatedto、functionallyrelatedto和conceptuallyrelatedto。

UMLSSemanticNetwork对于所有请求者的查询都是有效的，并且是免费的[14]。

　　（3）GeneOntology（基因本体）

　　GO（http:

//www.geneontology.org/）项目是2000年由基因本体联盟（TheGeneOntologyConsortium，GOC）研发的。

GOC的目的是要创建一套动态的受控词表。

GO项目旨在定义出一套结构化的、定义精确的、通用受控词表，可用于描述任何有机生物体中基因和基因产物。

GO项目开发了三个结构控制词表（本体）用来描述基因产物，这三个独立的词表本体是：

生物学过程本体（BiologicalProcesses）、分子功能本体（MolecularFunctions）和细胞成分本体（CellularComponents）。

这项工作有三个独立的方面：

开发和维护自身本体；基因产物的注释，确保合作数据库中的本体、基因和基因产物相关联；开发创造、维护和使

展开阅读全文