网络环境下信息检索语言的应用研究.docx

资源描述

网络环境下信息检索语言的应用研究.docx

《网络环境下信息检索语言的应用研究.docx》由会员分享，可在线阅读，更多相关《网络环境下信息检索语言的应用研究.docx（26页珍藏版）》请在冰点文库上搜索。

网络环境下信息检索语言的应用研究.docx

网络环境下信息检索语言的应用研究

摘要

信息检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统，其职能,是作为信息检索系统的语言保证，检索语言的质量直接影响着检索系统的效率。

目前，网络信息检索工具主要是基于范畴层次（List-basedSearchEngines）的搜索引擎基于语词层次（Words-basedSearchEngines）的搜索引擎。

著名的浏览型网络信息检索工具如、Yahoo、Eblast、Galaxy和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统清报检索语言组织和揭示信息的思想，Altavista集成的Askjeeves就是自然语言搜索引擎。

传统检索语言经过网络适应性改造后，能够成为目前及将来相当时期内最主要、最重要、最有效的网络信息资源组织的方法，依然能为网络信息检索提供语言保证。

在手工检索、机检条件下形成的受控语言从标引到检索两方面都已基本成熟，网络信息资源的组织与检索涉及到自然语言如何与受控语言兼容并蓄问题。

受控语言与自然语言相结合，共同用于组织和检索网络信息应该是未来信息检索语言的发展方向。

本文力图通过对近年来国内外针对网络环境下信息检索语言理论及应用性成果的研究，展望这一领域研究前沿与发展趋势。

本文主要研究网络环境下信息检索语言的发展，主要内容包括五部分:

第一部分分析了网络环境对信息检索语言的影响;第二部分是网络环境下分类检索语言的应用，包括传统分类法电子化及在网络上的应用，网络信息检索工具中的应用;第三部分是网络环境下主题检索语言的应用，包括传统叙词表电子化及在网络上的应用，在网络信息捡索工具中的应用;第四部分是自然语言处理与自然语言检索，包括自然语言处理的基本原理及在信息检索中的应用，国内外自然语言检索进展;作者在论文最后指出，在网络环境下信息检索语言新发展有:

元数据研究;分类—主题一自然语言一体化，分析国外一体化系统实例:

一体化医学语言系统iJMLS，国内一体化系统实例:

《中国财经报刊数据库》检索系统;并指出学科一事物概念组配型检索语言是理想发展模式。

关键词：

信息检索语言、网络信息检索、自然语言检索搜索引擎、主题检索语言

引言

信息检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统，其职能是作为信息检索系统的语言保证，检索语言的数量直接影响着检索系统的效率。

网络环境下，信息检索语言面临的信息环境已发生了深刻的变化:

数据库数量急剧膨胀，信息资源类型复杂多样,广大网络终端用户直接使用检索语言。

这就要求情报语言学要突破传统的束缚，开拓研究思路，适应大信息环境下情报检索的语言要求。

近年来国内苏的碱分析表明，情报语言在网络信息环境下又有了其发展的新领域、新热点，蕴育着新的生机。

回顾信息检索产生、发展的历史，从基子印刷型文献的手工检索护基于数据库的计算机检索到基于网络的信息检索，检索语言经历了以受控语言（分类法、主题法）为主、受控语言和自然语言结合，以及以自然语言为主三个阶段。

检索语言的基本功能:

（1）对情报信息的内容加以标引揭示其外表特征和内在内容;

（2）对内容相同及相关的情报加以集中或揭示其相关性断（3）对大量信息加以系统化或组织化;（4）便于将标引用语和检索用语进行相符性比较:

（5）便于检索用户从无序的信息中获取有用信息。

网络信息检索工具主要是基于范畴层次（List-basedSearchEngines）的搜索引擎和基于语词层次（Words-basedSearchEngines）的搜索引擎。

著名的浏览型网络信息检索工具如Yahoo,Eblast,Galaxy和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统情报检索语言组织和揭示信息的思想，Altavista集成的Askjeeves就是自然语言搜索引擎。

传缤检索语言经过网络适应性改造后，能够成为目前及将来相当时期内最主要、最重要、最有效的网络信息资源组织的方法，依然能为网络信息检索提供语言保证。

目前，信息检索领域在手工检索、机检条件下形成的受控语言从标引到检索两方面都已基本成熟。

网络信息资源的组织与检索涉及到自然语言如何与受控语言兼容并蓄问题。

受控语言与自然语言相结合，共同用于组织和检索网络信息应该是未来信息检索语言的发展方向。

1网络环境对信息检索语言的影响

1.1网络环境特点

1.1.1网络信息的特点

（1）数量巨大而庞杂。

Internet是一个基于TCP/IP协议连接世界各国数以百万计算机网络的通讯网，是一个集各种信息资源为一体的信息资源网。

政府、机构、企业、个人等都可以在网上发布信息，因此它已成为无所不包的庞杂信息源，并具有跨地区、分布广、多语种、高度资源共享的特点。

（2）内容范围广泛。

网上的信息源几乎涵盖了人类知识的全部领域，既有人文科学、社会科学、自然科学、工程技术信息，也有大量生活服务、娱乐消遣等方面的信息。

（3）信息类型丰富。

其主要形式有网络出版，包括电子期刊、网上图书、电子工具书等各种动态信息主要包括新闻、广告、股市行情、天气、交通、会议等;还有大量的书目数据库联机数据库、软件资源以及个人主页、电子邮件等。

这些信息都是数字式、多媒体，既有文本的信息，也有大量的图形、图像、音频、视频信息。

（4）动态性强。

网上信息具有高度动态性，各种信息处在不断生产、更新淘汰的状态，同时连接在一起的各网络、网站、网页都时时刻刻在变化。

网络信息还具有交互式特点，如BBS、聊天、游戏等。

（5）信息组织特殊、控制性差。

因特网上信息的组织以超文本技术链接，构成立体网状文献链，把不同国家地区、不同服务器、各种网页、各类不同文献的相关信息都通过节点链接起来使得检索相关文献、相关信息非常方便，加强了信息间的关联度，形成了一个网状结构。

（6）有序与无序，集中与分散并存。

互联网上的信息没有统一控制，虽然从局部来说某个网站、某个数据库是有控制的、相对集中的、有序和规范的，但总的来说互联网的信息没有统一的控制，信息质量良荞不齐，信息也处于分散、无序、不规范的状态之中。

1.1.2网络信息用户特点

由于职业和专业的不同，以及受教育程度的高低差异，使得用户个体的认识和认知特征、知识储备和知识结构各不相同，对知识体系的了解也不尽相同。

同时，对同一概念、同一事物的内涵和外延的理解也会存在差异，对网络信息需求的目的和需求信息的种类也不同。

正是由于种种不同，致使网络信息用户呈现差异性、复杂性等特征。

（1）用户范围广泛，层次不同。

互联网的用户从院士到小学生、从科学家到工人、从企业家到农民、从音乐爱好者到球迷，包括家庭主妇、老人、儿童等等，我国网络用户主要群体是青年人，学生占很大比例。

（2）受教育程度差别大。

从初等教育程度到博士教育，用户个体的认知特征、知识储备和知识结构都有很大的不同;工作岗位、职业、专业不同，对同一概念、同一事物的内涵和外延的理解不尽相同。

目前我国网络用户70%以上具有大专学历，随着网络的普及，这一比例正在降低，这也说明网络对专业知识的要求越来越低。

（3）用户需求多样化和复杂化。

为进行科学研究，收集经济信息，接发邮件，下载软件，听音乐，参与讨论，看新闻，学习课程，了解信息，学习知识，娱乐消遣，购物等等，都可以利用网络，这导致用户查询和利用信息的视角不同、方法不同、类型不同、深浅程度也不同。

（4）使用网络信息服务项目不同。

用户最常使用的网络服务是:

电子邮箱有74.9%，搜索引擎有51.3%，其他如软件上传或下载，各类信息查询，聊天也都是经常使用的信息服务类型。

搜索引擎和信息咨询服务是用户利用网络信息资源最重要的工具，网络信息资源的有效组织决定了对其利用程度及便捷性。

1.1.3网络信息资源组织与揭示

（1）自由文本组织方式。

自由文本以全文数据库存储为基础。

它将一个信息源的全部内容（而不是信息的线索），转化为计算机可以识别、处理的信息单元而形成数据集合，适应了对Web网页中非结构化信息处理的需要。

它必须对全文数据库进行词（字）、句、段落等深层编辑、加工，允许用户用自然语言表述、检索，直至直接查看一次信息。

由于自由文本组织方式占用的空间大，系统响应速度慢，因而关于全文数据库压缩技术的研究，关于超高密度磁盘、光盘及芯片技术的研究，以及关于自然语言后控机制的研究和给标引短句加权的研究等，将是自由文本组织方式中需要解决的问题。

（2）超维组织方式。

这是一种基于知识单元的新型信息组织与揭示方式，它借助超文本技术来实现。

超文本技术将文本信息存储在无数节点（node）上，一个节点就是一个相对独立的“信息块”，节点之间用“链”（link）联接，由此组成信息网络;它也可以链接声音、图像（形）、影视等多媒体信息，构成超维检索点。

在这种超维系统中，用自然语言分析、抽取知识单元，不仅减轻了专业标引人员的负担，而且打破了传统系统线性序列的局限性，允许用户按个人兴趣和熟悉的语言浏览、查询信息。

1.1.4网络技术环境特点

（1）现代计算机技术、网络技术、通讯技术使分布在全球的信息设备和各种信息资源跨越时空联系在一起，为人们发布、利用信息提供了巨大的便利。

（2）数字技术、多媒体技术把不同载体、不同形式的信息放在互连网上，只需一台计算机，不用借助更多专门设备接可以上网浏览文本、图形、图像、声音、动画等信息。

（3）超文本和WWW技术实现工nternet上客户机与服务器的集合，将全部的Web站连在一起，将全部相关信息链接在一起，通过它可以存取世界各地的超媒体文件。

（4）人工智能技术、自然语言理解技术、自动索引技术、数据库技术以及相应的硬件，使得快速将浩如烟海的动态信息进行过滤、筛选、整序、建库成为可能，同时为网络信息快速查询提供技术支持。

1.2信息检索语言的类型

信息检索语言是用于标引和检索文献的标识系统，各种信息检索语言的基本原理是一致的。

由于它们在表达各种概念及其相互关系时和在解决对它们提出的那些共同要求时所采用的方法不同，因而形成了不同的类型。

按传统的分类方法，信息检索语言的种类有:

（1）按构成原理分为:

分类检索语言、主题检索语言、代码检索语言:

（2）按学科或专业范围分为:

综合性语言和专业性语言;

（3）按语种分为:

单语种语言和多语种语言;

（4）按标识和组合使用方法分为:

先组式语言和后组式语言。

将表示各种知识领域（学科及其研究问题）的类目按知识分类原理进行系统排列并以代表类目的数字、字母符号（分类号）作为文献主题标识的一类情报检索语言，亦称类法。

使用分类检索语言建立的文献情报检索系统能够使检索者鸟瞰全貌、触类旁通，对系统地掌握和利用一个学科或专业范围的知识和情报十分方便、有效。

分类检索语言可分为等级体系分类语言（等级列举式分类法）和分析一综合分类语言（分面组配式分类法）两种。

等级体系分类语言属于先组式语言，分类体系明显，容易理解，但因其采用列举式列类方法和类目的单线排列方式，所以存在着不能无限容纳概念的局限性和集中与分散的矛盾.分析一综合分类语言就本质而言属于后组式语言，不过通常采取先组散组式的使用方式，它基本克服了等级体系分类语言的缺点，但分类体系不够明显，较不易理解。

使用语词标识的一类情报检索语言，亦称主题法。

其基本的、共同的特点是:

①用自然语言中的名词术语经过规范化后直接作为文献主题标识，直观性好;②按字顺序列排列标识，检索者较易使用;③具有按文献主题（文献所论述的事物）集中文献情报的功能，对有关某一事物的检索效率较高;④用参照系统及其他方法间接显示文献主题概念之间的关系，其系统性不及分类检索语言，对一学科或一专业文献作全面、系统的检索比较困难;⑤较接近自然语言，所以较易与自然语言结合使用。

主题检索语言根据其发展的历史可分为标题法、单元词法、叙词法和关键词法等。

自然语言从广义上说，指人们日常说话、写文章和交流思想所使用的语言。

有人将自然语言定义为文献作者所使用的书面用语。

在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参考文献中的具有一定实质意义的词语。

自然语言检索在机检系统中，尤其在网络检索中得到了广泛应用。

1.3网络环境对信息检索语言的影响

自20世纪90年代以来，以Internet为核心联接起来的全球计算机网络，使传统的相对集中和规范的文献数据库及其检索系统面临挑战。

在网络环境中，传统的“提问一检索”模式已逐步被“浏览一查询”模式所取代。

与此同时，网络环境中信息检索的理论与实践研究也都围绕这一模式展开。

1.3.1自然语言与受控语言的比较

自然语言和受控语言是当前信息资源标引和检索中两大语言类型，在性能上各有其优点和不足之处。

受控语言与自然语言相比，有许多不可替代的优势:

（1）通过词形控制和词义控制，使同义词、近义词的联系得到揭示，可以检出同一概念的对象，增加查全率:

同时，对同形异义词的含义做出限制，使得检索结果更加准确，提高检准率。

（2）把语义相关的词联系起来，对词间关系进行结构化处理，建立语意关系网。

在计算机检索系统中可以多种方式显示，能引导用户进行相关信息查询，减轻用户智力负担，便于扩检和缩检，满足不同检索需求。

（3）压缩词汇数量，使得词汇所占空间或篇幅较小，便于进行各种处理。

（4）受控语言如分类语言，具有对信息资源集合系统组织和管理的功能。

人工语言（即情报检索语言）的不足主要有:

标引速度慢、处理时差大、对标引人员要求高、标引成本高、一般用户使用困难:

一部严格控制词表的编制和维护，需要花费巨大的人力物力和财力，增加系统的费用;在新概念接受方面显然不如自然语言，不能及时更新。

采用自然语言检索较受控语言检索有许多优点:

（1）可以降低标引难度及成本，从而提高标引速度，缩短时差:

（2）直接使用文献用语和作者用语检索能更好地体现文献本体内容，可以改善标引的专指性和一致性，从而提高检索的效率:

（3）各学科的用户在进行检索时一定会感到使用本学科领域的自然语言要比使用受词表方便得多;

（4）用自然语言标引和检索文献，它可以使用在文摘、索引或文献正文中出现的任何一个有实际意义的词，不仅可以指定检索的两个词必须在同一段落或同一个句子中出现，甚至还可以指定两个词间不超过多少个间隔词，因而保证较高的检准率;

（5）采用用户熟悉的自然语言，符合用户检索习惯，减少了概念转换中产生的失真;

（6）由于自然语言标引或无标引检索多采用自动处理方式，省略编制词表和词汇的智力负担;

（7）符合客观需求，不受限制，随时输入新词语，可以紧跟科学的发展，及时反映新事物、新概念;

（8）自然语言标引检索入口词多，有利于提高检全率;操作简单方便，灵活比较适合没有专业知识的广大网络用户使用等。

1.3.2自然语言与受控语言结合的趋势

从网上自然语言使用的情况看，问题并不那么简单。

如选词不加严格控制，会导致词语量过大，过多占用磁盘空间，从而影响主题的集中，降低查准率。

同时，由于自然语言对多义词也基本不加控制，往往使相关主题内容的文献分散，从而造成漏检.。

受控语言与自然语言存在的这种互逆相关性，恰好说明它们在网络环境中兼容、整合的必要性。

结合人工语言和自然语言使用的不同特点，作者建议采用以下模式:

简略的人工语言标引十自然语言检索十较完善的后控技术进行控制，简述如下:

（1）简略标引。

检索语言学家F·W·Lancaster提出:

“当今的趋势，显然是朝着简化情报系统的方向发展”;“我们可以通过一种控制不太严格的词汇，在标引上少花些时间，以及将较多的功夫下在输出阶段的检索和筛选上”;“人们可以用一种粗略的小型词表进行花费很小的简易标引，来辅助一个用可检文摘形式组成的机读数据库”。

比如用简单的分类或主题索引将文献粗加归类，如目前的许多数据库所做的那样，如中国学术期刊光盘（网），就分为政治经济法律、电子科学、文史哲、教育与社科综合等类:

而许多网上数据库或搜索引擎是按主题归类，如Yahoo,Sohu等。

这样，在查询时先选择大致类目或主题，然后再查，应能减少发生词义混同的现象。

还可加上简单的地理、时间、文种等方面的限制，使检出文献的专指度达到一定程度。

现在的问题是如何使这样的简单标引能好用而又准确，于是元数据应运而生，尤其是都柏林核心集因在网络信息资源组织方面的显著优势，受到人们广泛关注。

（2）采用自然语言检索，不受人工词表限制。

科学编制检索表达式，尽量充分、准确表达用户的检索要求，大量编制入口词表有尤为重要。

（3）较完善的后控技术由人工智能系统或后控词表系统对用户的检索需求加以分析、综合、归纳，转化为系统可接受的语言，然后进入系统开始查询。

人工智能系统是一种理想的检索辅助系统，它应能够接受用户的自然语言检索需求，加以分析并将其转化为规范的检索要求，指令机器寻找出符合用户需求的结果。

目前没有这样一种系统进入使用。

但我们可以退一步，用另一套目前可行的办法加以弥补自然语言检索的不足，即编制一套科学、合理、与数据库配套的后控词表附在数据库中。

这里所说的科学合理，指的是应由各学科专家挑选，准确反映各事物主题概念，尽量不含歧义。

当用户用自然语言输入检索要求后，系统加以分析，从后控词表中选出相应的、规范的检索词（也可能是一组词）供用户挑选，用户挑选与自己的检索要求最贴切的词进行检索。

这方面已有实例，如美国uml数据库。

这样可修正自然语言检索的不足，提高检索效率和检准率。

其中的关键是后控词表的编制应经仔细斟酌，应以能最准确表达事物主题且为该专业内普遍承认和使用的词汇为宜。

2网络环境下传统信息检索语言:

分类检索语言的应用

2.1传统分类法电子化及在网络上的应用

网络信息组织一般是按照信息的范畴（分类）和事物的概念（主题）组织信息。

网络查询工具也分为按范畴浏览的工具和语词查询的工具。

现有工nterne七上著名的检索工具Yahoo,Excite，工nforseek等，实际上都在自觉或不自觉地借鉴了分类法组织和揭示信息的思想;而Altavista集成的Askjeeves自然语言搜索引擎则以主题词为组织与揭示信息的重要途径和方法。

2.1.1分类法的电子化

网上受控语言的应用研究始于分类法的电子化和叙词表的自动生成。

分类法的电子化为分类法在联机和网络环境中的应用提供了数据保证和技术支持。

目前，分类法的电子化及电子版分类法在联机和网络环境中的应用研究仍然是情报检索语言研究的一个热点。

国内分类法的电子版发展史上具有划时代意义的事件是《中国图书分类法》电子版的出版发行。

2001年7月，由《中国图书分类法》编委会和丹诚软件公司联合研制的《中图法》（第四版）电子版由北京图书馆出版社正式出版。

该电子版是在Windows平台上开发的，有单机版，也有网络版。

它的问世填补了我国没有电子分类法的空白。

《中图法》（第四版）电子版的特点:

①完整的数据格式

《中图法》（第四版）电子版，在CNMARC基础上，参考USMARC的成功经验，并结合《中图法》的自身特点研制而成。

这种数据格式比较全面的描述了《中图法》类目的内容与属性，便于和国际通讯格式接轨，又较好地照顾了《中图法》本身的特点。

②方便的显示和浏览功能

运用等级展开的类目树、浏览窗、详细窗、MARC记录窗、临近类目窗，以及超文本技术，为用户提供了宏观结构、类目的上位类和下位类环境、类目细节等多种浏览形式;使用多窗口同时显示不同的浏览检索窗;各个窗口可以任意布局和互动;各种浏览方式之间和各窗口之间可以随意跳转，从根本上克服了线性体系对多层次浏览的制约。

③完备的检索和统计功能

《中图法》电子版的检索功能包括:

分类法的各个范围的检索、各种匹配方式的检索、布尔逻辑检索、各种限定因素的检索、电子分类法各个要素的检索。

这些功能使用户可以根据不同的需要以任意条件进行快速检索，同时也提供相应的统计功能。

④通用的编目接口

能与各种编目系统接口是电子分类法的必备功能，《中图法》电子版不但以剪贴板的方式解决了与各种编目软件的通用接口，同时用datatrans语言编写了系统的开放式接口，可供用户或软件开发商连接使用。

⑤实用的评注功能

在使用电子分类法时又能管理分类法的“使用本”，这对一个单位的分类工作与规则管理是十分重要的.《中图法》电子版的评注功能完备，在使用网络版时，只要一个客户端对类目下的评注作了修改或添加，那么其他所有客户端便会同步显示，这就为电子版的管理带来了很大方便。

⑥方便友好的用户界面

电子分类法既是面向标引用户和检索用户的分类法，就应尽可能地每一个细节考虑用户使用的方便性。

《中图法》电子版界面清晰有序，在启动各种功能时一般都提供多种调用方式，以满足不同用户的习惯。

详细的帮助系统能解答使用中遇到的各类问题。

⑦为主题检索的兼容留有余地

分类主题一体化既是文献信息标引的方向，也是文献信息检索的方向，《中图法》电子版在格式设计中也包括了与《中国分类主题词表》相连接的各个字段，能充分描述主题词及其词间关系，很容易把主题词表挂接上，为实现检索语言的分类主题一体化奠定了基础。

”

总之，《中图法》电子版的出版发行将对我国文献信息整序工作、分类法理论研究以及相关软件的开发产生深远的影响;为其他综合性分类法和专业分类法电子版的研制提供了可供借鉴的经验;为《中图法》的网络版的开发奠定了数据基础和技术基础。

2.1.2分类法的网络版及在网络上的应用研究

20世纪80年代以来，人们对世界上主要几部分类法如:

DDC,LCC,UDC在联机环境下的应用进行了大量研究，发现分类法在组织和检索网络信息资源方面有独特的优势，主要表现在:

①以分类方法组织信息符合人们认识事物的逻辑思维习惯，能满足“物以类聚”、“鸟瞰全貌”、“触类旁通”的检索要求:

②将检索限定于特定类目，可提高检准率:

③分类体系结构可显示检索词的上下文，利于调整检索范围;④以知识分类为基础，以符号为标识，便于不同文种、不同类型分类法的国际兼容;⑥通过分类浏览，可方便地检索难以确定名称的新事物、新知识。

⑥比较适合于组织和检索网络上的大量非文本信息。

网上受控语言的应用研究发端于分类法的电子化和叙词表的自动生成。

通过网上对DDC,LCC和UDC的调查研究，总结网络版异同点，各大分类法在网络信息资源组织与检索方面都采用较为先进的技术与措施满足网络用户信息查询需求，基本达到满意的效果，并为许多网站直接使用。

（1）杜威十进分类法（（DDC）网络版

DDC网络版的主要特征有:

1使用的浏览器界面，用户可以对DDC及相关的术语进行高效的检索和浏览。

②包含了数千个DDC印刷版中没有的相关索引词有组合类号，就是通过在相关词

展开阅读全文