信息检索基础完整篇Word格式文档下载.docx

上传人:b****1 文档编号:879345 上传时间:2023-04-29 格式:DOCX 页数:26 大小:34.34KB
下载 相关 举报
信息检索基础完整篇Word格式文档下载.docx_第1页
第1页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第2页
第2页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第3页
第3页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第4页
第4页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第5页
第5页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第6页
第6页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第7页
第7页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第8页
第8页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第9页
第9页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第10页
第10页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第11页
第11页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第12页
第12页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第13页
第13页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第14页
第14页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第15页
第15页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第16页
第16页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第17页
第17页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第18页
第18页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第19页
第19页 / 共26页
信息检索基础完整篇Word格式文档下载.docx_第20页
第20页 / 共26页
亲,该文档总共26页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

信息检索基础完整篇Word格式文档下载.docx

《信息检索基础完整篇Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《信息检索基础完整篇Word格式文档下载.docx(26页珍藏版)》请在冰点文库上搜索。

信息检索基础完整篇Word格式文档下载.docx

一般是对已发表的科研成果、生产技术和科学知识的概括和总结。

它通常是以一次文献为基本素材,经过作者的选择、分析、鉴别和归纳后重新组织写成的。

特点:

内容比较系统、全面、成熟、可靠,有一定新颖性,是综合、积累和传递科技知识的一种重要情报源。

但编辑出版时间过长,传递信息速度太慢,内容一般只是反映3-5年以前的研究水平。

从情报检索角度来看,~一般不作为主要检索对象。

2.科技期刊:

一般是指定期或不定期连续出版的、通常有数字或年月顺序编号的、并打算无限期出版下去的出版物。

出版周期短、报道速度快,数量大、内容丰富,能及时反映世界的科技水平,是科学交流的主要工具。

据统计,从期刊方面获得的科技情报约占全部情报来源的65%。

3.会议文献:

在国内外各种学术会议上交流的论文,以及由此汇编成册或内部交流或公开出版的文献。

传递信息及时,针对性较强,能反映当代科技最新水平和发展趋势,是科技人员的主要参考资料。

4.专利文献:

是专利制度的产物,一切与工业产权有关的文献统称为~。

广义解释包括:

专利说明书、专利公报、专利检索工具及与专利有关的法律文件等;

狭义仅指专利说明书。

专利说明书对工程技术人员特别是产品设计人员来说,是一种较为切合实际、又具有启发性的重要参考资料和情报源。

5.科技报告:

指各国政府系统或科研及生产单位关于某项研究成果的总结报告或在研究过程中每一阶段进展情况的实际记录。

比较新颖、详尽、专深。

6.学位论文:

高等学校或研究机构培养的学生为获得某种学位而撰写的科学论文。

7.技术档案:

在科研和生产过程中形成的、有一定对象的技术文件的总称。

包括:

任务书、协议书、图纸、方案等

8.产品资料:

国内外各厂商为推销产品而印发的商业宣传品,包括:

产品样本、产品说明书等。

9.标准文献:

以文件形式出现的、经过公认的权威当局批准的标准化工作成果。

又称“技术标准”或“标准”。

特点:

现代工业生产与制定和运用技术标准有密切的联系。

通过标准可以了解各国的经济政策、技术政策、生产水平、标准化水平等。

10.政府出版物:

各国政府及其所属的各个部门所发表、出版的文件。

集中反映了各国政府有关工作的观点、方针、政策,对了解某国政策、经济实况有一定参考价值。

二、按照信息加工层次划分

人们在报道和揭示信息的过程中,对信息进行了不同层次的加工,按照加工程度可将信息分为——原始文献、二次文献、三次文献)

1)一次文献:

是指作者以本人的研究成果为基本素材而撰写的,并以正式出版物的形式向社会公开发表的文献。

阅读性图书、期刊论文、科技报告、会议论文、专利说明书、技术标准及部分学位论文等。

如学报,青年文摘。

记录的情报一般比较具体、详尽和系统化,是创造性劳动的结晶,有直接参考、借鉴和使用的价值。

2)二次文献:

(SecondaryDocument)是对一次文献进行加工、提炼和压缩后所得到的产物,是为了管理和利用一次文献而编辑、出版和累积起来的工具性文献。

目录、题录、文摘、索引。

3)三次文献:

(TertiaryDocument)是指对有关的一次文献和二次文献进行广泛深入地分析研究之后综合概括而成的产物。

综述、述评、年鉴、文献指南等。

如教材、年鉴、手册、、百科全书。

总结:

一次文献带有创造性;

二次文献是在一次文献基础上形成的,具有选择性、浓缩性;

三次文献是在一、二次文献基础上经过分析、提炼、总结形成的,具有概括性。

从一次文献到三次文献,是一个由分散到集中、由无序到有序的过程。

三、按照信息内容划分

1.按信息内容的表现形式划分:

(1)文献型信息源:

~的信息内容是以语言文字的形式存储在各种不同的载体上,~是目前信息内容最丰富、人们使用最多的信息源。

(2)非文献型信息源:

包括——1数值型信息源:

以数据形式出现的,并存储在各种不同载体上的信息集合。

2声像型信息源:

信息以声音或图像形式出现的信息源。

如广播、电视、CD光盘、VCD光盘等。

3多媒体信息源:

集文字、声音、图像于一体,多以光盘或因特网网上资源形式出现。

4实物及口头信息源:

指实物中及口头交流中所含的信息。

第三节信息检索概述

一、信息检索

(一)信息检索含义(InformationRetrieval)

1.信息检索:

~是指将信息按一定的方式组织、存储起来,并根据用户的需要找出有关信息的过程。

它的全称又叫做“信息存储与检索”(InformationStorageandRetrieval),这是广义的信息检索。

狭义的信息检索仅指该过程的后半部分,即从信息集合中找出所需情报的过程。

信息检索根据其检索对象的不同,可分为文献检索、数据检索、事实检索,其中文献检索是三者中最基本、最主要的方式。

(1)文献检索(DocumentRetrieval)---凡是以文献(包括文摘、题录或全文)为检索对象的检索就叫~。

文献检索是一种相关性检索,检索结果是文献线索(文摘、题录),一般要阅读文摘后才能决定取舍。

~是信息检索的基本检索,它要比数据检索和事实检索复杂而困难,文献检索主要是通过二次文献(检索工具)进行,如目录、题录、文摘、索引等。

数据检索和事实检索是信息检索的派生检索,主要通过参考工具书来达到检索目的。

(2)数据检索——以数据为对象的检索,包括文献中的某一数据、公式、图表等,是直接可以利用的情报。

(3)事实检索——以事实为对象,查找某一事物发生的时间、地点及过程,也是一种确定性检索。

信息检索包含文献检索,文献检索是信息检索中最重要的类型。

二、信息检索原理

本质概括——对信息集合与需求集合的匹配与选择。

包括两个过程——

1存储过程(形成检索工具)2检索过程(利用检索工具查找所需信息)

信息检索方式

信息检索可以分为---传统信息检索(手检)和现代信息检索(机检)。

1、传统信息检索:

是指手工信息检索,是检索人员利用手工检索工具靠手翻、眼看、大脑判断的方式查找所需文献信息的检索手段。

其检索方法主要有以下几种:

(1)直接检索:

即利用一次文献进行检索。

是人们最常用的一种查找信息的方法,许多人需要信息资料时,首先想到的是去图书馆查阅各种图书、期刊及其他资料,从中找到所需信息。

这种方法要花费大量的时间和精力,在过去文献数量较少时,还能达到目的。

而在当今信息大量产生的年代,用这种方法收集信息,有如大海捞针一样,但~在资料积累上还是个好方法。

(2)间接检索:

是利用各种检索工具获取线索,再根据线索来查找文献信息的方法,也就是常说的手工检索。

在一般的信息检索书中,如果没有特殊说明,手工检索就是指间接检索而言。

2、现代信息检索:

包括计算机信息检索和网络信息检索。

~是以计算机为基础的信息存储检索,它是在手工检索、机械检索及光电检索基础上演变而来,而且还在不断向前发展。

计算机检索已经从单机检索、联机检索发展到今天的网络检索,并正向着智能化方向发展。

计算机单机检索:

~是计算机检索的最初形式,随着计算机存储介质的发展变化,也在不断变化。

目前主要有三种形式:

计算机磁盘检索、计算机磁带检索和计算机光盘检索。

计算机网络检索:

~是近年发展起来的,目前主要有三种形式:

图书馆局域网络的检索、联机检索系统的检索及Intetnet网上检索。

根据内容不同计算机信息检索系统分为:

联机检索系统、光盘检索系统、网络检索系统。

第4节信息检索工具

一检索工具定义

1.检索工具是人们用来存储、报道和查找文献资料的工具,它们是图书情报部门对原始文献加工整理后编制成的二次文献或三次文献。

一般来说,~必须具备下列四项条件:

1对所收录的文献的各种特征(包括外部特征和内容特征)要有详细的描述。

2每条描述记录(即款目)都标明有可供检索用标识。

3全部描述记录科学地组织成一个有机的整体。

4具有多种必要的检索手段。

二、检索工具类型

提供线索的指示型检索工具(二次文献)和提供具体信息的参考型检索工具(三次文献)

检索工具可以从不同的角度,划分为不同的类型:

(一)按收录范围划分

综合型检索工具:

~收录范围广,可涉及多门学科的多种文献类型,如苏联的《文摘杂志》、美国《工程索引》等就是世界上著名的~。

专业型检索工具:

收录文献的范围仅限于某一学科领域。

如美国《化学文摘》、《金属文摘》等。

单一型检索工具:

只收录某一特种类型的文献,但学科范围可广可窄。

如专门检索专利文献的英国的《世界专利索引》、报道会议文献的《会议论文索引》等。

(二)按检索方法划分

手工检索工具:

包括各种手工检索目录卡、各种书本式检索刊物。

机械检索工具:

主要指计算机检索工具,包括各种类型的计算机检索软件。

(三)按出版形式分:

(1)卡片式检索工具

(2)书本式~:

期刊式~:

形式与期刊一样,有统一刊名、分卷分期,包括各种定期或不定期出版的检索刊物。

单卷式~:

一般以图书形式出版,也有不定期连续出版几卷后就不再出版。

如专题目录、专题文摘。

附录式~:

一般不单独出版,仅付于图书、期刊、论文之中或之后。

如“参考文献”、“引文书目”。

(3)缩微式~:

缩微胶片。

(4)磁带式:

磁带、磁卡、磁盘、光盘、磁性材料。

(四)按编著方式划分:

在科技界人们比较习惯按编著方式来划分检索工具的类型。

——目录型、题录型、文摘型和索引型。

1.目录型检索工具:

目录定义:

以单位出版物的外部特征(如图书名称、著者、出版事项等)位著录对象,进行简单描述,获得一个目录款目,将一个个目录款目按某种方式组织起来就形成了目录。

目录特点:

目录只描述出版物的基本特征,对内容揭示非常浅,因此它主要应用于查找出版单位或收藏单位是否拥有自己所需要的图书、期刊等单位出版物,难以检索出版物所包含的情报内容。

从情报检索角度来讲,它不是主要的检索工具,但它是其他检索工具的基础。

目录种类

(1)按检索途径划分:

书名目录:

以书名为排检标目,按书名的字顺排检。

著者目录:

以著者姓名为排检标目,按著者姓名的字顺排检。

分类目录:

以分类号为排检标目,检索文献比较科学、系统,能较好地满足族性检索的要求。

主题目录:

以文献的主题词为排检标目,便于把分散在各学科的文献集中起来,专指性强,但不便于族性检索。

(2)按职能分:

1)出版发行目录:

包括登记性的国家书目和商业性的出版商书商目录。

国家书目:

如实记载某一国家某一历史时期的图书出版状况,为图书情报部门提供了最全面最权威的图书出版情况,是有效进行图书采购、整理、利用及开展参考咨询服务的重要工具。

我国目前有两种:

月刊性的《全国新书目》和年刊性的《全国总书目》。

2)馆藏目录:

包括两种---图书馆藏书目录:

反映单个图书馆图书收藏情况。

联合目录:

反映某地区或系统甚至全国的图书收藏情况。

馆藏目录是读者到图书馆查找和借阅图书的重要工具,也是检索服务查找原文及获得原文的必备工具。

3)资料来源目录:

指附属于某一检索工具或检索系统的“引用出版物目录”,是供读者了解某一检索工具的文献收录情况和期刊演变情况,准确鉴别文献或题录出处的辅助性工具。

2.题录型检索工具

(1)题录定义:

用来描述某一文献的外部特征并由一组著录款目构成的一条文献记录。

题录通常以一个内容上独立的文献单元(如一篇文章、图书中的一部分、有时也可以是整本出版物)为基本著录单位,这是他与目录的主要区别。

两者的相同点是他们都只限于描述文献的外部特征,题录实质上是一种不含文摘正文的文摘款目。

在揭示文献内容的深度方面,题录比目录深一些,但又比文摘浅。

主要采用题录方式来摘录和报道文献的检索工具都属于题录型检索工具。

(2)特点:

虽然对文献内容的揭示深度不如文摘型检索工具,但加工容易、出版迅速,可以缩短检索工具的时差,使科技人员尽快获得最新情报,它往往是文摘型检索工具的先导和重要补充。

3.文摘型检索工具:

(1)文摘:

(abstract)是对一次文献的内容所做的简略、准确地描述,通常不包括对原文的补充、解释或评论。

它是检索工具的主题,二次文献的核心。

文摘款目由题录部分和文摘正文组成。

文摘可以帮助科技人员判断检索的文献是否符合需要,避免误检和漏检;

确定原文内容与课题的相关程度,可以节约阅读时间;

便于电子计算机进行全文检索,有助于提高标引质量。

(2)文摘类型:

按目的和用途分类---

报道性文摘(informativeabstract):

是原文内容的浓缩(尤其是创新点),向读者提供原文中的定量情报(如距离、最大值、最小值、平均值、公式等)和定性情报(发现、结果、新方法、新设备、结论等)。

~基本上反映原文技术内容,信息量大,参考价值高,长度200~300字左右。

指示性文摘(indicativeabstract):

指示给读者原文的主题范围、研究目的、不摘录论据、方法、数据、设备、结论等内容。

~适用于泛论性或评论性文章,长度100字左右,有的只有一句话,又称“解题性文摘”或“简介”。

二、检索工具的结构

都是由1编辑说明与使用凡例部分、2分类表和主题词表部分、3正文(著录)部分、4索引部分、5附录部分组成的。

第五节信息检索语言

一.检索语言的概念

1.定义:

信息的存储和检索是两个紧密联系的过程,在这两个过程中,都要对文献信息进行标引,如果没有共同的语言来确保对文献信息标引的一致性,就会给信息检索造成极大的困难。

为使检索顺利+进行,在信息存储时,标引人员用一定的语言来描述文献信息的外部特征和内容特征,在信息检索时,对信息的需求也必须使用与其相同的语言来表达。

这种用来描述文献特征和表达检索提问的,信息存储者和检索者共同采用、共同理解的语言就是信息检索语言。

又称标引语言、索引语言、信息、检索语言等,是根据检索需要而编制的一种人工语言。

2.特点:

检索语言是一种专门的人工语言,它表达的概念应具有唯一性,即一个词只表达一个概念,一个概念只用一个词表达,不能一词多义或多词一义,使概念表达模棱两可。

正是由于检索语言具有这种性质,这就为检索标引、提问采用共同语言提供了可能性。

而自然语言由于有多义词、同义词、近义词等,不宜用于文献检索。

二、检索语言的组成:

检索语言由词汇和语法组成:

词汇——登录在分类表、词表中的全部标识,如分类号、主题词、代码。

语法——指的是如何创造和运用标识来正确表达文献内容和信息需要,以有效地实现信息检索的一整套规则。

三.检索语言分类

检索语言可以从不同的角度进行划分,文献的外表特征和内容特征都可以作为检索语言,关键在于概念上应具有唯一性。

1.从描述角度划分:

(1)描述文献外表特征的检索语言:

如以作者姓名作为标识的~。

著者篇名和代码

(2)描述文献内容特征的检索语言:

~按其构成原理又可分为三大类:

(1)分类法语言:

a)体系分类语言,b)组配分类语言

(2)主题法语言:

a)标题词语言;

b)单元词语言;

c)叙词语言;

d)关键词语言

代码检索语言:

一般只就事物的某一方面特征,用某种代码系统来加以标引和排列。

例如以化合物分子式、合金成分标引的检索语言。

2.按其标识的组配方式划分:

(1)先组式检索语言:

在检索前检索标识已经预先组配好的一种检索语言。

检索时检索人员只能选用这些预先组配好的检索词去检索文献。

标题词语言、分类法语言属于~。

(2)后组式检索语言:

仅将所有检索词编制成表,不预先组配,检索文献时才按照组配规则临时组配。

叙词语言属于~。

3.按检索词的规范程度划分:

(1)受控语言:

检索词来自文献或用户提问并受到信息检索系统控制(词表等),又称为规范化语言。

如体系分类语言,叙词语言,标题词语言。

(2)自然语言:

检索词直接来自于文献或用户提问的语言。

如关键词语言。

体系分类语言

1.定义:

~是一种直接体现知识门类的等级结构的标识系统。

他根据一定的观点,以科学分类为基础,以文献内容的科学性质为对象,运用概念划分与概括的方法,按照知识门类的逻辑次序,进行层层划分,每划分一次,就产生许多类目,逐级划分,就产生许多不同级别的类目。

所有不同级别的类目,层层隶属,形成一个严格有序直线型的知识门类的等级制体系。

每个类目都用分类符号作为标记,每个分类号都是表达特定知识概念的词汇,这些词汇就是~。

我国的几部图书分类法实际上就是~,分类表中每个分类号代表一个类目,因而分类号可以用作语言来表达概念。

检索时,根据所需文献的主题概念,从分类表中找到相应的分类号后,就可以用他做检索语言,查找所需文献。

(1)~体现了学科的系统性,便于从学科门类出发,进行族性检索,查全一门学科中各种事物的所有文献。

(2)体系分类法将概念逐级划分,具有等级结构,便于扩大和缩小检索范围。

(3)由于分类法不宜经常修订,类目不能随时改变,因此难以标引新兴学科的文献;

此外,分类表中的类目不能无止境地细分,主题范围狭窄的文献,也可能找不到相应类目和分类号。

(4)体系分类法用分类号分类号。

不熟悉分类法,转换时就可能发生误差,优点是不受作为检索标识,不能直接表达概念,检索时需要先将主题概念转换为文种限制。

(5)分类法按直线式序列设置类目,遇到跨学科的课题时,由于相关文献只能标引在一门学科的类目下,容易漏检。

(6)属于先组式检索语言,类目不能变动,不能按照课题需要组配检索。

标题词语言(SubjectHeading)

定义:

标题词是指用以描述文献主题内容的经过规范化处理并具有固定组配关系的名词性术语(包括词组和短语)。

以标题词为标识来存储和检索文献的信息标识系统称为标题词语言。

~是最早出现的一种按主题来标引和检索文献的主题词语言,与体系分类语言同属先组式检索语言,但不用分类号而用词语作为文献标识。

2.结构:

~的三大构成要素是主标题、副标题和说明语。

主标题:

是表达文献核心内容的主题概念,一般由经过规范化的自然语言中的词、词组和短语来充当。

副标题:

从某一特定方面对主标题进行说明、限定,由经过规范化的词、词组来充当。

说明语:

是用来详细说明和限定主标题、副标题的内容与方面的词、词组或短语。

它由未经规范的自然语言充当,不纳入词表正文,而是排在主、副标题之下。

叙词语言

1.有关定义:

(1)叙词(Descriptor):

是指具有组配功能并经过规范化处理的用以表示概念单元的名词或名词性词组。

(2)叙词语言:

以叙词为基本成分,通过选取叙词及严格的同义规范(优选)、词义规范(词义限定)、词类规范及词形规范,为文献标引与检索而设计的人工性后组式语言。

(3)叙词法:

建立在叙词语言及其性质的基础上的一种处理文献的方法,基本原理是通过概念组配(分析与综合)来表达主题,以提高标引的专指性和检索的灵活性。

叙词法与元词法区别:

元词法只限于字面形式上的组配,叙词法主张概念组配。

2.叙词的组配原则:

叙词所用的词主要是名词和动名词,词序都采用自然序列,尽量采用单词作为叙词,利用单词的组配来表达复合概念。

只有在单词组配会造成错误和混乱时才采用词组。

词语的组配方式有两种:

概念组配和字面组配。

概念组配是合乎逻辑的组配,字面组配不一定合乎逻辑,导致误检。

例:

概念组配有三种:

(1)概念相交:

具有概念交叉关系的同级词组配后,形成一个新概念,这个新概念是组配前各概念的下位概念。

“月掩恒星”标引为“月掩星:

恒星”

(2)概念并列:

具有并列关系的两个或多个同级词组配后形成各概念的上位概念。

(3)概念限定:

将表示事物的叙词和描述他的方面词组配形成一个新概念,他能说明事物的某一方面。

“各国统计资料”—“统计资料,各国”;

“食品的化学分析”—食品—化学分析

3.叙词语言的特点:

(1)~是后组式检索语言,概念组配是其核心。

(2)叙词表不是等级结构,便于增删、修订叙词。

(3)直接使用叙词作为检索标识,不必转换,具有语言直接性。

(4)有一套完整的参照系统,可供扩建或缩检。

(5)利用词族索引和范畴索引可以按学科分类进行族性检索。

(6)用叙词语言标引和检索机读数据库中的文献,是其应用的最主要方面。

与其他检索语言相比,叙词语言是较完善的检索语言。

关键词语言

关键词(Keyword):

是指直接从文献的题目、文摘或正文中抽出的对表达文献内容具有实质意义、能作为检索入口的、起关键性描述作用的词汇。

关键词语言:

用关键词作索引款目的标识系统,是一种未经优选和规范化的自然语言。

是自然语言,未经规范处理,不受词表控制,方便易掌握,可降低标引难度,节约人力。

利用计算机自动标引文献,编制关键词索引非常迅速,可大大缩短检索刊物的报道时差。

缺点:

未经规范化,标引人员和检索人员用词不一致时,容易漏检,降低查全率。

单元词语言

单元词(Uniterm):

又称为元词,是从文献中抽取出来的、未经规范处理的、能表达文献主题的最小和最基本的词汇单位。

~在概念上不能再分解。

单元词语言:

通过单元词组配来表达文献主题的检索语言。

2.特点:

优点:

(1)采用单元词组配,表达概念的灵活性大,可使检索达到任意专指度。

(2)适用于各种载体的检索工具和检索系统,尤其适用于自动化检索系统。

(1)过分强调索引词的单元化,否定词组的作用。

(2)仅限于对词进行字面上的分解和组配,有些词在字面上无法单元化,容易造成组配错误,增加误检率。

单元词法自50年代创立后,逐渐演变为叙词法,但单元词法开创了后组式检索语言和组配检索法,成为大多数联机检索系统的基础。

第6节信息检索程序与策略

一、检索程序

第一步:

分析检索的主题

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2