ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:23.22KB ,
资源ID:14042032      下载积分:1 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-14042032.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(网络环境下新型汉语主题词表的功能定位与发展.docx)为本站会员(b****1)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

网络环境下新型汉语主题词表的功能定位与发展.docx

1、网络环境下新型汉语主题词表的功能定位与发展网络环境下新型汉语主题词表的功能定位与发展曾建勋/常春2012-9-29 20:35:04来源:情报学报(京)2010年6期【英文标题】Function Orientation and Development of New Edition of Chinese Thesaurus under Network Environment【作者简介】曾建勋,男,1965年生,研究馆员,武汉大学博士研究生,主要研究方向:知识链接与知识组织。E-mail:zeng。武汉大学信息管理学院,武汉430072;中国科学技术信息研究所,北京100038常春,男,1966年

2、生,博士,研究馆员,主要研究方向:信息组织。中国科学技术信息研究所,北京100038【内容提要】网络环境下,从信息服务向知识服务转型过程中,对叙词表的编制、使用及其作用的发挥提出了更高的要求。作为我国第一部大型综合性叙词表,网络环境下的新型汉语主题词表,其在表现形态、编制方式、功能定位和应用方式上都将发生根本性的变化。作者基于对网络时代叙词表编制的探索性实践,分析了网络环境下新型汉语主题词表的形态特征,提出了汉语主题词表在网络环境下编制和维护方式,并对其功能定位进行了探索展望。Chinese Thesaurus is the first large-scale comprehensive th

3、esaurus. Emergence of digital network environment has posed higher requirements on its construction, use and role. In the new information environment, new edition of Chinese Thesaurus is quite different from the old one in terms of presentation, construction methods, function orientation and applica

4、tion way. Institute of Scientific and Technical Information of China has made a lot explorations on how to construct thesaurus within networked environment, based on which characteristics of new Chinese Thesaurus were thoroughly analyzed, then its construction and maintenance ways within networked e

5、nvironment were proposed, and finally its function orientation was summarized.【关 键 词】网络环境/汉语主题词表/功能定位Network environment; Chinese Thesaurus; Function orientation汉语主题词表(以下简称汉表)是我国第一部大型综合性叙词表。1980年出版第一版,包括社会科学和自然科学部分1,1991年出版汉表(自然科学增订本)。汉表是我国图书情报界集体智慧的结晶,在我国图书情报事业中发挥了重要作用,为此于1985年获得国家科学技术进步二等奖2。20世纪90

6、年代,人类进入网络时代。在网络环境下,信息存储、加工、传播等发生显著变化,具备了海量信息资源,拥有了突破时空限制的网络技术,用户可以自由参与信息资源组织,由此,叙词表的编制方法、应用方式甚至表现形态等也发生了相应的变化。在这种背景下,中国科学技术信息研究所近年来组织全国的情报检索语言专家,对汉表的修订工作进行了多次咨询和论证,于2009年正式启动汉表在网络环境下的修订改造工作。这项工作将以汉表(工程技术版)为起点,目前已经完成编制方法的前期论证,编制规则制定、编制平台研制、基础词库建设、范畴类目修订等相关工作正全面展开。网络环境下,新型汉表的表现形态、编制维护方式和功能定位都将发生深刻的变化,

7、汉表将随着时代的发展而创新3。1 网络环境下新型汉语主题词表的形态特征1.1系列词汇概念集成的知识组织系统网络环境下,新型汉表的总体形态特征将从一个包含叙词和非叙词的单一词表,转变为包括基础词库、核心词库、叙词词库等在内的知识组织系统,包涵词汇、术语、概念和实例数据库。目前我们正在开展的相关工作包括:汉表基础词库建设、专业核心候选词库建设、词汇空间向概念空间的映射、词间关系的自动构建等。修订改造的汉表,其表现形态将不再是10个分册的纸质版本,而是包含分类、主题和概念等不同语义级别的一系列词汇和概念数据库的集成知识组织系统。它有着以下的特点:不再控制概念术语的数量,而是尽可能找全所有的专业术语。

8、给出这些术语之间尽量多的词间关系:不必刻意区分叙词和非叙词,尽量穷尽所有的同义词关系;通过计算机聚类和关联分析尽量获得相关关系。集中于如何抽取完整范围的概念术语,以及全面的概念关系。在词表词汇组成方面,将从过去10万个左右概念词汇组成的单一词表,转变为将来的从基础词库、核心词库、到叙词库,从百万级到十万级词汇数量的一套词汇概念知识体系。新型汉表还将包括系列实例知识数据库,例如时间、空间、机构、国家等通用实体知识数据库,地理名称、化学名称、部件组成等专业实体知识库,并涵盖专有名词实例数据。1.2呈立体结构的概念语义网络传统叙词表呈现出的是一种树状结构,它对知识采用从总到分,层层推进的方式展开,有

9、着很强的系统性。为了便于文献标引,传统叙词表一般将主题词平行分布在多个树状结构内。但是,在网络环境下,各种信息技术手段的应用,可以克服复杂的词间关系在传统的纸质显示中受空间因素制约的不足,以立体的方式展现分布在多个树状结构中的叙词,使整个概念体系呈现出立体网状结构。类似于语义网络的概念图,将某一领域内的知识元素按其内在关联属性,以可视化的形式展现,揭示知识结构及其细节变化。同时也为每个叙词设置了超链接,从而揭示立体网状结构中的不同节点之间的关联关系。1.3机器可读的概念知识关系体系网络环境下新型汉表将是机器可读和可理解、表达适度概念关系的知识组织体系。传统叙词表主要通过人工标引和检索发挥作用,

10、语义关系的制定和使用也由人工完成。在网络环境下,新型汉表的主要使用方式将转入系统后台,通过机器直接阅读叙词表的语义关系,用于机器标引和智能推理与检索。目前实现了基于XML数据格式,使用RDF或者OWL机器语言表达词表概念关系4。用户或系统管理者可以根据使用目的不同进行相应定制,达到最佳使用效果。概念关系将在传统的等同关系、等级关系和相关关系基础上,向简约和细化两个方向发展,构成由简到繁的知识地图,甚至达到初级本体级别的语义关系。1.4基于用户检索和文献语料的专业知识组织工具网络环境下新型汉表,其词汇来源将充分考虑用户检索用词和文献主题的准确表达,实现叙词表词库与用户检索用词最大限度的一致。目前

11、的大型网络数据库,如万方、维普等,为我们实现这样的目标提供了可能。首先通过用户对这些数据库的检索日志,来获取用户检索用词,并根据用户专业等信息对这些检索词进行标准化清洗,可获得符合叙词表标准的规范化词汇。继而通过词频统计和聚类等信息技术,使用加权等选择手段,从海量专业文献中,选出叙词表的系列概念词汇。综合用户检索词和文献语料库词汇信息,最终得到叙词表系列数据库词汇系统,具备用户依据和文献依据,为新型汉表的有效利用奠定坚实的基础5。1.5用户参与编制维护的知识表达工具网络环境下新型汉表,无论是其编制还是其维护过程,都将充分发挥用户的积极性,都将在用户的全力参与下完成。没有时空限制的网络环境,为用

12、户参与叙词表的编制提供了可能:通过在线的叙词表编制平台,在专业概念分类、重点概念建议、词间关系建立等多个方面,用户可以与叙词表编制人员或组织进行互动,随时修改和完善叙词表的编制。在维护方面,更能体现用户的参与作用,虽然新型汉表的直接应用是通过机器实现的,但最终还是为用户服务,用户在使用过程中,可以根据自己的领域知识在线参与修订和维护叙词表,充分体现用户的需求,发挥用户的积极作用。1.6智能化和可视化应用的系统网络环境下新型汉表将提供更多人性化的应用方式。系统具备默认的智能检索方式,用户无须查阅浏览叙词表的概念知识体系,叙词表在后台系统中直接运行默认的词表应用,发挥叙词表的查全查准功能;此外,用

13、户检索过程的不同阶段都会有叙词表的智能参与,如在用户输入检索词过程中,检索系统依据叙词表的词汇数据库和概念语义关系,自动提供适合用户专业背景的概念词汇。同时,还具备可视化特征,在用户需要的时候,可通过合适的图像或者多媒体的方式将叙词表的概念关系形象直观地层示给用户,更利于用户的学习使用,也利于知识的传播,以区别于传统叙词表的不同应用方式。1.7动态变化的专业知识体系更新工具修订改造后的新型汉表是以系列词汇概念数据库为基本成分,学科分类相对集中的立体网状知识体系。词汇、概念系统具有纵横动态更新变化的特点。纵向变化表现为:基础词库的自由词始终处于动态更新中,专业核心词库随时间变化相对稳定,叙词词库

14、相对固定。横向变化表现为:可以根据信息管理与专业领域的需要,分解或从中提取任何一个专业领域的专业叙词表,如基于基础词库、核心词库、范畴分类等信息,构建农业科学叙词表、建筑科学叙词表等。新型汉表词汇数据库系统,将具备机器可识别的专业核心概念、专业通用概念和通用概念等,概念关系在专业领域内相对集中,在领域间互联互通,可以根据信息组织需求,自动生成不同专业的叙词表。2 网络环境下新型汉语主题词表的编制和维护2.1基于海量数据资源选用概念术语过去,叙词表概念术语的选择主要由领域专家人工确定,虽然也要考虑文献覆盖、使用词频等因素,但当时计算机应用普及程度低,无法获取海量的信息语料,造成在实际操作中无法准

15、确地获取文献覆盖、术语词频等数据,所以往往是领域专家决定术语的选取数量和具体词汇,由于人为因素占的比例大,很容易出现同一领域不同专家选用的术语不一致,导致叙词表的应用存在偏差和阻力。在数字化网络化的信息环境下,我们已经具备万方数据、重庆维普、CNKI等这样的大型文献语料库,已经具备类似谷歌和XX等可以搜索因特网上主要信息的网络搜索引擎,同时,还可以通过日志获取用户使用检索词汇的种类和频次5。所有这些语料,为叙词表编制中基于概念覆盖、基于词频统计、基于用户使用的关键词来选取规范的概念术语奠定了基础,为概念术语的选取提供了数据支持和科学依据。2.2基于知识关联获取词间关系传统叙词表的词间关系建立,

16、同样也是由领域专家建立并确定的。由于专家领域知识的个体差异和对叙词表的不同理解,造成他们提供的词间关系不一定适合专业叙词表词间关系的正确表达,词间关系以领域专家力图反映领域知识结构为主,体现文献知识真正关联度有一定差异,这样,不利于相关文献的扩检。在网络环境下,叙词表词间关系的建立,同样可以利用海量的语料。以万方数据和重庆维普的数据为例,在选定了某一领域一定数量的概念术语以后,将这些术语两两组合,统计在专业文献的标题、关键词或文摘语料库中的共现频率6,通过术语前方一致、后方一致等语言处理7,还可以通过垂直搜索统计网络专业信息中的共现频次、共篇、同引、耦合等多种方法和手段,来确定词间关系,也从建

17、立词间关系的源头上保证了通过叙词表可以实现相关知识文献的准确获取。2.3基于多表映射的集成融合汉表的建设带动了我国众多专业词表的建设。网络环境下新型汉表的建设,需要对相关知识组织体系进行转化、映射或融合,一方面从技术角度达到互操作等知识共享应用目的,另一方面不同程度地吸收相关词表的词汇概念及其词间关系。根据知识本体、语义网络的设计思想,建立语义类型(较宽泛的主题类目)与语义关系(术语概念间关系)相结合的基础构架,对传统分类法、叙词表、标题表、术语词典等进行结构改造和兼容;基于不同知识组织系统自身体系结构建立映射,在不同的受控词表之间或词表与分类号之间建立等同词联系;或者根据同一元数据或编目记录

18、中同时出现的来自不同体系的术语建立链接关系,将词汇与其他词汇根据语义关系,而不只是概念的等价性链接起来;利用各种语义工具、专家系统等建立起概念、术语间错综复杂的关系,使计算机系统理解用户的检索请求,帮助用户实现语义检索和知识挖掘。2.4基于网络平台的协同工作网络时代新型汉表使用标准的数据格式,例如SKOS的数据格式8,或者使用OWL格式9,将有利于不同系统、不同操作平台的数据转换和数据利用。这些语言都与具体的系统分离,可以单独表达词汇概念及词间关系。机器可以理解其中的知识结构和知识体系。在叙词表的编制中,可以编制网络可视化系统,清晰表达各类知识结构层次关系。在编制方面,系统支持不同地域的叙词表

19、编制者同时在一个网络平台上工作。不同编制者上传的数据和词间关系,既可以保留编制者的数据信息,也可以展示所有编制者共同工作的集成成果,而且主要编制工作过程也在网上实现可视化,通过图形清晰表达概念及词间关系,通过拖动、链接、合并等界面简单操作,随时提出概念及词间关系的建立或修改建议,其他编制者也可以在网上同步显示相应的工作过程及结果。同时,还可以进行概念逻辑关系的自动校验和修正,提升汉表的编制效率和质量。2.5基于用户体验的网络维护网络时代新型汉表的维护是其发展的生命源泉。在叙词表编制理念的基础上进行词及词间关系的维护,无论是新词的选用、还是现有术语的更新,都需要建立相应的更新机制,以推进叙词表的

20、维护工作走向可持续化轨道。新型汉表的最终目的是为用户服务,因此,其维护更新和发展需要建立基于用户体验的网络化服务维护平台。在网络维护中,可利用Web 2.0技术中的社会标记法(social tagging)10和自由分类法(folksonomy)的类似方法来改进词表的升级维护工作11,采集用户在使用汉表时动态产生的修改意见;使用一些标准化自动工具发现新词和词间关系;设置公共讨论区,让网络用户或专业标引人员,便利地在网上提出新增概念术语和相应的词间关系,或者上传对现有术语的修订意见。词表维护人员既可以将修订内容分发给不同的编制者共同讨论,也可以将修订内容在总体词表环境下进行显示和检查,理顺新的词

21、间关系,核实所有互逆概念,剔除或调整已有的相同或相近概念,使汉表的维护制度化,保证汉表的可持续发展。3 网络环境下新型汉语主题词表的功能定位3.1知识揭示功能无论是传统的信息组织工作,还是网络环境下的知识组织实践,都离不开信息描述和知识揭示。只有通过对文献资源有效知识点的准确信息描述,才能真正揭示知识,提供信息检索和知识链接等服务。利用新型汉表建立知识库的自动分类系统,进行基于统计分类与机器学习技术的文献标引,对海量科技文献资源中的知识点,如科技术语、内容主题和相关科研对象等,进行自动标注,实现科技文献有效组织、知识揭示和知识化关联,实现“分类号(类目词)主题词关键词”的一体化应用,达到自然语

22、言到检索语言的规范控制,可以提高查全率和查准率,提升检索效率。3.2学科导航应用在网络环境下,通过信息获取平台系统,用户可以非常便利地使用主题和分类两种方法获取信息。修订改造后的新型汉表,将会建成主题分类一体化叙词表,用户如果习惯从学科分类入口浏览查询相关信息,则可以选择范畴分类信息,从学科知识的顶层,逐层向下浏览,直到获得自己需要的类目以及相应的信息;用户也可以通过叙词表可视化技术,浏览新型汉表词族知识概念体系,推荐的概念知识体系,直接浏览检索需要的信息。3.3智能检索应用网络用户的主要活动是检索信息,通过网络获取信息已经成为普通网络用户的常规方法。经过修订改造后的新型汉表,同时具备了分类表

23、、叙词表和本体的共同属性,能够实现不同颗粒度的智能查询与检索功能,可以是分类水平上的范畴类目体系的批量文献信息获取,也可以是主题词汇概念级别的扩检与缩检,甚至是知识本体意义上的概念关系级别智能推理检索和语义相似度聚类,结合其他词表映射融合等多种不同方法,实现不同目的和条件下的智能检索。3.4知识学习应用网络环境下新型汉表将是领域专家与在线用户知识体系的最新成果。叙词表本身就是领域知识的结晶,经过向范畴分类、向概念关系细化、向定义注释等多个方向发展,它甚至可以具备网络百科的功能,成为网络用户日常工作中的必备知识工具。对知识管理机构来说,可以利用可视化等多种信息技术,将叙词表用于研制开发智能知识机

24、器人、甚至知识博物馆等未来产品。从汉语规范化角度出发,新型叙词表也是用户查找和检索规范专业词汇、基础词汇和通用词汇的常用工具,具备着词典的功能。3.5文本信息处理应用网络环境下新型汉表由一系列词汇库组成,可根据不同目的,用于切词、信息抽取、聚类、词频统计、情感分析等所有文本信息处理基础工作,成为计算语言学的重要研究和应用工具。反过来,文本语言处理技术的改进又可以促进叙词表的维护和应用。文本信息处理应用还包括:在跨语言检索和机器翻译等方面的应用;通过新型汉表的英汉双语对照,实现英汉双语检索功能等。利用新型汉表词汇的系列英汉对应词库及词间关系,也可以为英汉机器翻译系统的开发提供基础语料,提高机器翻

25、译的准确性。利用新型汉表的词汇、术语、概念等语料词汇系统,还可以开展研究热点领域监测、专业知识挖掘、领域知识聚类等计算语言学相关的系列应用。4 结语历史上的汉表在我国图书情报界具有重大影响,是当时信息组织与检索的重要基础工具。在网络时代,修订改造后的新型汉表将朝着数字化与网络化、语义化、标准化、互操作化和可视化等方向发展。随着时代的变迁,传统汉表的应用将成为经典的方式,新型汉表的建设探索,将变成普及和主流的应用。新型汉表将吸收不同知识组织体系的优点,在机器语言表达和概念关系细化等方面进行改造,通过计算机化表达基于海量的数字信息数据,更好地层现人类已经获得的领域知识;通过计算机的逻辑计算和推理,

26、自动或半自动获取概念以及概念关系,并邀请领域专家对相关知识进行认定和补充。从而,不断发展和完善知识表达,嵌入机器应用,达到智能检索、主题分类一体化和知识导航功能,同时,概念关系和属性实例将进一步细化,达到初级本体级别的知识挖掘、推理运算功能,支撑网络数据库使用,驱动语义网发展,成为信息组织与知识服务必不可少的重要工具,形成我国从信息服务向知识服务转型的重要基础设施。新型汉表肩负着传播汉语领域知识的重要历史使命,必将在我国科技创新中发挥重要作用。【参考文献】1中国科学技术情报研究所,北京图书馆.汉语主题词表M.北京:科学技术文献出版社,1980.2中国科学技术情报研究所.汉语主题词表:自然科学(

27、增订本)M.北京:科学技术文献出版社,1991.3贺德方.汉语主题词表的回顾与展望J.情报理论与实践,2010(2):1-4.4鲜国建,孟宪学,常春.农业科学叙词表的OWL表示研究J.中国农业科学,2007(增刊):91-95.5常春,吴雯娜.网络时代专业叙词表选词规则实践与讨论/全国第五次情报检索语言发展方向研讨会论文集M.北京:国家图书馆出版社,2009:107-113.6常春,赖院根.基于文献标题词汇共现获取词间关系研究J.图书情报工作,2009,53(8):17-20.7常春,吴雯娜,曾建勋.基于后方一致获取词间关系J.情报科学,2009,27(7):1085-1088.8The Wo

28、rld Wide Web Consortium(W3C). SKOS Core Guide OL.2010-06-25. http:/www.w3.org/TR/2005/WD-swbp-skos-core-guide-20051102/.9The World Wide Web Consortium(W3C). Web Ontology LanguageOL. 2010-06-25. http:/www.w3.org/TR/owlfeatures/.10杨青云,裴雷,吴克文.国外社会化标注系统中标注行为研究现状J.情报杂志,2009,28(11):185-188,184.11毛军.元数据、自由分类法(Folksonomy)和大众的因特网J.现代图书情报技术,2006(2):1-4,9.

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2