信息存储与检索复习资料上课讲义Word格式.docx
《信息存储与检索复习资料上课讲义Word格式.docx》由会员分享,可在线阅读,更多相关《信息存储与检索复习资料上课讲义Word格式.docx(13页珍藏版)》请在冰点文库上搜索。
12.间接检索法:
利用一定检索工具进行文献检索
13.专利:
有三层含义:
一指受专利法保护的发明,二是指专利权,三指专利说明书等专利文献。
这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体体现。
14.搜索引擎:
是一种Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。
用户可以通过主题浏览和关键词检索的方式搜索所需信息。
15.技术档案:
指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。
16.索引:
根据标题法的原理,将类目及其注释改成标题形式,按字顺排列,并注明相应的分类号。
这样不仅可方便查表,而且还可将分类表中因为按学科分类而被分散的同一事物不同方面的类目集中,使分类法在某种程度上兼有主题法的性能。
17.抽查法:
针对研究课题发展的特点,选择有关的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。
18.回溯检索:
又叫追溯法,是以某一篇文献末尾所附的参考文献为依据,由近及远进行逐一追踪的查找方法.
19.循环检索:
先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找.
20.追溯法:
以已获文献后面所附参考文献为线索进行追溯查找,又称为参考文献法。
21.分类标引:
对档案给予分类号标识的过程。
22.目录:
是图书、期刊或其他单位出版物外表特征的揭示与报道。
它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。
1.信息——是世界上一切事物的状态和特征的反映,是用文字、数据或信号等形式,通过一定的传递和处理,来表现各种相互联系客观事物在运动变化中所具有特征内容的总称。
2.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。
3.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。
1.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
3.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化。
1.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识的原始来源和属性的数据库。
1.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。
2.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。
3.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。
1.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。
2.电子报纸——多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。
1.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
2.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
3.手册——是汇集某一方面经常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
4.名录——是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
1.搜索引擎——就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
二、填空题
1.信号只是信息的(载体),信息是信号所载荷的(内容)。
2.现实的信息资源依据传递信息的载体和表述方式的不同,可以划分为(口语信息资源),(体语信息资源),(文献信息资源),(实物信息资源),(网络信息资源)。
3.口语信息资源、体语信息资源和实物信息资源,通过计算机技术的转化,成为(网络信息资源),如果有长期开发的价值,往往会转化成(文献信息资源)。
4.(文献)是记录有信息和知识的一切有形载体,是将知识用文字、符号、图像、音频、视频等方式记录在一定的固态物质载体的结合体。
5.期刊按内容和性质划分,可以分为(学术性期刊),(检索性期刊),(其他类型期刊)。
6.(零次文献)是指未经出版发行的或未以公开形式进入社会交流的最原始的文献。
1.信息检索根据检索的目的和对象的不同,可分为(数据检索)、(事实检索)、(文献检索)三种。
2.信息检索工具按存储内容划分有(目录型)、(题录型)、(文摘型)和(全文型)检索工具。
3.信息检索工具按载体划分有(印刷型)、(缩微型)和(电子型)检索工具。
4.主要的布尔逻辑关系符有三种:
(逻辑与)、(逻辑或)、(逻辑非)。
5.截词检索的截词符一般用(?
)或(*)表示。
1.参考数据库主要包括(书目数据库)、(文摘数据库)和(索引数据库)。
2.SCI是(科学引文索引)的缩写,文献主要来源于(期刊),还有少量的专著、会议录、书评、科技报告和专利文献。
3.EI是(工程索引)的缩写,90%的文献语种是(英语)。
4.EI收录期刊的三个档次为(全选期刊)、(选收期刊)、(扩充期刊)。
1.(专利文献)是专利制度的产物,反过来说又是专利制度的重要基础。
2.中国专利说明书包括以下几种类型:
(发明专利申请公开说明书),(发明专利说明书),(实用新型专利说明书),(外观设计专利说明书)。
3.(国际专利分类法)(IPC)是目前惟一国际通用的专利文献分类和检索工具,为世界各国所必备。
4.会议文献是指通过召开学术会议而产生的文献,包括(会前文献)、(会中文献)和(会后文献)等三种。
5.会议文献的出版形式有很多,通常有以下几种:
(图书)、(期刊)、(科技报告)、(在线会议)。
6.按照多数国家的学位制度,学位论文包括(学士学位论文)、(硕士学位论文)和(博士学位论文)三种类型。
7.(标准)是对工农业产品和工程建设的质量、规格、检验方法、包装方法及贮运方法等方面所制定的技术规格。
1.电子图书是(多媒体技术)和(超文本技术)发展的产物。
3.目前,我国多家专门从事制作电子图书的商业机构,如(超星图书公司)、(北大方正)、(书生之家)等以及一些专门出版网络电子图书的出版商如博库公司等都算得上是我国电子图书事业的先驱。
4.按制作与出版形式分类,电子图书可分(数据库式)电子图书和(原生)电子图书两类。
5.目前,电子报纸主要有(网络版电子报纸)、(光盘版电子报纸(数据库))、(手机版电子报纸)和(便携式电子报纸)等4种类型。
1.事实和数据的检索是一种能提供具体答案的(确定性检索)。
2.在数据库兴起之前,人们要解决事实与数据的查找问题主要是依靠(参考工具书),而随着计算机技术以及互联网的蓬勃发展,(事实与数值型数据库)以及(网络资源)已经成为人们解决该类问题的首选途径。
3.(词典)是汇集语言里的词语,主要解释词语的概念、意义及其用法,并按照一定的方法编排,以便查阅的工具书。
4.荟萃人类一切知识门类或某一学科知识的完备的工具书称为(百科全书)。
1.(网络信息资源)是通过计算机网络可以利用的各种信息资源的总和。
2.根据信息来源的不同,人们将Internet信息资源分为(政府)、(公众)、(商用)三类信息资源。
3.根据信息资源利用的性质,人们将Internet信息资源分为(开放式信息)、(注册信息)、(交流式信息)三类信息资源。
4.(数据库方式)与(超媒体方式)是网络环境下文献资源组织方式的主流。
5.一般地,人们从(检索策略)和(检索工具)两个方面对Internet信息检索方式进行分类。
6.从广义上讲,搜索引擎应包括两部分:
一是(对信息的采集、存储和组织),二是(信息检索)
7.搜索引擎按其工作方式和原理的不同,主要可分为三种,分别是(全文搜索引擎)、(目录索引类搜索引擎)和(元搜索引擎)。
1.信息资源搜集的主要方法有(系统检索法)、(科学实验法)、(访问考察法)和(调研法)四种。
2.根据内容的不同,文摘可分为以下三大类:
(报道性文摘)、(指示性文摘)和(报道指示性文摘)。
3.学位论文的开题一般包括(选题)、(资料搜集)、(撰写开题报告)和(文献综述)几部分内容。
三、简答题
1.光盘检索与手工检索相比有哪些优势?
使用光盘检索系统,,节省了电讯费和联机系统使用费,还可免除由通信线路传输过程中所造成的失误
光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式
光盘存贮容量大,耐用,复制费用低
需要大量光盘数据库,受到经费限制
在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供
数据库费用大
手工检索的优势
(1)便于检索者根据文献标引规则查阅相关文献。
(2)手工检索能了解各类检索刊的收录范围、专业覆盖面、特点和编制要点,检索回溯期长,可以提高查全率和查准率。
(3)手工检索灵活性高、费用低。
(4)手工检索也便于检索策略的制定和修改,所得到的文献信息一般能符合检索者的信息要求,并且手工检索过程中发现问题,可以及时地修改和提出。
(5)在载体内容的直观性方面,手工检索也优越于计算机检索。
利用手工检索工具,人们无须借助任何转换设备便可一目了然地判读具体文献的描述内容,也能够比较准确地了解其全部。
而计算机检索则不然,必须借助于相应的读取工具,如计算机、光盘阅读器等,才能得以判读。
手工检索的缺憾:
(1)检索速度慢
(2)检索受时空的限制(3)检索受馆藏资源的限制(4)更新周期长(5)检索途径少
2.信息的特征有哪些?
答:
普遍性、无限性、传递性、可知性与可贮性、动态性、共享性
3.简述联机检索的基本原理。
信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程.一个典型的计算机信息系统,能完成数据收集,分析,加工处理,存储,传递通信和检索信息的全过程.
4.信息的概念是什么?
信息有哪些特征?
广义的信息概念:
即信息是事物运动的状态和方式,也叫本体论信息
狭义的信息概念:
即信息是认识主体对事物运动状态和方式的反映,也叫认识论信息信息
具有如下几个特征:
5.检索系统必备四大要素是什么?
答:
检索文档(数据库)、检索设备(检索硬件及通讯设施)、系统规则、相关人员、。
6.简述信息检索语言的功能。
信息检索语言是沟通信息存储和信息检索的桥梁;
对信息组织人员来说,它是表达信息主题内容,形成标识并赖以组织信息的依据;
对信息检索人员来说,它是表达检索需求的依据。
7.简述信息检索的作用。
全面掌握必要信息;
提高信息利用效率;
提高信息素质;
具有一定经济性。
8.简述信息检索原理(可以用图描述)。
9.简述网络信息资源的特点。
(1)信息量大,有污染。
当我们在检索时,往往会出现许多无关的信息,而信息的真伪是需要鉴别的。
(2)信息共享性好,更新快。
Internet上的信息共享性最好,只要在网上的任何一个主机上发表信息,在全世界范围内都能看到。
(3)信息源分散无序。
Internet上的信息源是在每个独立的计算机服务器上,使网上的信息源呈现出分散、无政府状态。
用户无法判断网上有多少同自己需求有关的信息,给用户的信息检索带来一定的困难。
(4)信息商品化。
网上的免费信息多数都是具有一定宣传作用的,真正有用的信息多数是要付费的,可以说Internet上的网络信息具有一定的商品化。
10.什么是检索策略?
检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以及查找步骤等。
检索策略考虑得是否周全,直接影响文献的查全率和查准率。
优化方法略
11.简述信息检索的本质。
本质就是提问标识语文献标识的对比和匹配。
12.举例说明什么是一次文献、二次文献、三次文献。
一次文献指以作者本人的研究成果为依据而创作的原始文献,如期刊论文、研究报告、专利说明书、会议论文等。
二次文献是对一次文献进行加工整理后产生的一类方面,如书目、题录、简介、文摘等检索工具。
三次文献是在一、二次文献的基础上,经过综合分析而编写出来的文献,人们常把这类文献称为“情报研究”的成果,如综述、专题述评、学科年度总结、进展报告、数据手册等。
13.如果要查找有关“转基因生物和细胞及其制备方法”方面的中外文文献,如何查找?
请写出具体的检索步骤。
1、分析课题,明确检索要求;
2、选择检索系统:
要考虑文献类型3、选择检索途径
4、选择检索方法5、查找文献线索6、获取原始文献
14.简述文献检索步骤
明确信息检索需求、选择检索系统、确定检索词、构造检索表达式、实施检索策略并分析结果、检索策略的修改与完善
15.影响查全率和查准率的因素有哪些?
查全率:
R=检出的相关信息量/检索系统中相关信息总量
使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降。
使用专指性较强的检索语言(如下位类、下位主题词)能提高查准率,但查全率下降
主要从以下几个方面考虑:
选词、选择数据库是否全面;
时间,文献类型
16.信息检索系统都包含哪些子系统?
文献信息选择子系统;
检索语言和名称规范子系统;
标引著录子系统;
查询子系统;
交互子系统;
匹配子系统。
17.简述信息检索的特征。
相关性;
不确定性;
逻辑性。
18.信息检索智能化主要体现在哪些方面?
检索技术智能化;
检索结果处理智能化;
检索服务智能化。
19.某同学在检索一个课题时,第一次检索的结果有200条文献,你建议一下她采用何种方式来缩小检索范围?
增加文献的检准率,减少文献的检全率
第一,变逻辑或为逻辑非,增加“and”的检索词
第二,限定文献的类别,(如该文献是医学方面的,就将其限定在医学这个大类下)
第三,或变模糊检索为精确检索
第四,增加其他的限度,这就要看你自己的,如有没有年限现在啊,作者之类
20.什么是检索策略?
计算机检索策略的制定一般经过哪几个步骤?
检索步骤
(1)弄清信息需求,明确检索目的
(2)选择数据库,确定检索途径(3)确定课题的概念组面和检索标识
21.简述专利的新颖性、创造性及实用性的含义,并说明中国保护的专利有哪几种类型?
专利的新颖性,是指申请日前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
专利的创造性:
是指在有新颖性的情况下,不同的技术之间实际上是没有产生意想不到的技术效果,简单说,就是两者之间的差异不明显,而且效果无进步.
专利的实用性:
指该理论或者观点的提出对实践的知道程度。
中国保护的专利类型有3种类型,分别是:
发明专利、实用新型专利和外观设计专利。
22.什么是信息检索查全率和查准率?
两者之间的关系如何?
查全率(RecallRatio)当用户要全面检索某一信息库时,检出的成功度可用检出的所有相关信息在信息库所有相关信息中所占的比例来表示。
这种对信息库检索全面性的测量指标即为查全率。
查全率与系统能够检索出的相关文献能力有关。
可定义为:
查全率=(检出的相关信息数/信息库中相关信息总数)×
100%
查准率(PrecisionRatio) 当用户要对检索到的结果进行分析时,检出的相关信息数在所有检出信息中所占的比例往往成了较重要的评判指标。
这种对检索结果中的相关信息的测量指标即为查准率。
也有称为信号噪声比(signal-to-noiseratio)。
查准率与检索出的相关信息数有关。
查准率=(检出的相关信息数/检出的信息总数)×
100%
查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。
若检出1篇相关信息,必能达到100%的查准率,但查全率却会非常低;
同样,若检出的信息数等于库中信息的总量a+b+c+d,则必能获得100%的查全率,但很显然查准率必定也低得可怜。
查全率和查准率是评价检索效果好坏的指标,而漏检率和误检率则是测量检索误差的指标。
23.影响信息检索效果的因素有哪些?
(1)影响查全率的因素从文献存储来看,主要有:
文献库收录文献不全;
索引词汇缺乏控制和专指性;
词表结构不完整;
词间关系模糊或不正确;
标引不详;
标引前后不一致;
标引人员遗漏了原文的重要概念或用词不当等。
此外,从情报检索来看,主要有:
检索策略过于简单;
选词和进行逻辑组配不当;
检索途径和方法太少;
检索人员业务不熟练和缺乏耐心;
检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
(2)影响查准率的因素主要有:
索引词不能准确描述文献主题和检索要求;
组配规则不严密;
选词及词间关系不正确;
标引过于详尽;
组配错误;
检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;
检索系统不具备逻辑"
非"
功能和反馈功能;
检索式中允许容纳的词数量有限;
截词部位不当,检索式中使用逻辑"
或"
不当等等。
实际上,影响检索效果的因素是非常复杂的。
根据国外有关专家所做的实验表明,查全率与查准率是呈互逆关系的。
要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。
企图使查全率和查准率都同时提高,不是很容易的。
强调一方面,忽视另一方面,也是不妥当的zx。
应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
24.信息检索的方法有哪几种?
从检索手段看,信息检索分为:
手工信息检索机械信息检索计算机信息检索
25.什么是信息检索漏检率和误检率,二者之间的关系如何?
误检率为检出的结果中,不相关信息占检出信息的比例。
这种对检索结果中不相关信息数的测定即为误检率。
误检率=(检出的非相关信息数/检出的信息总数)×
100%
漏检率为系统未检索出的相关信息占库中相关信息总数的比例。
这种对检索结果中不包含系统中存在的相关信息数的测定即为漏检率。
漏检率=(未检出的相关信息数/信息库中相关信息总数)×
其实,查全率和漏检率是互补的;
而查准率和误检率也是互补关系。
即:
查全率+漏检率=1;
查准率+误检率=1。
漏检率和误检率则是测量检索误差的指标。
26.试比较分类语言与主题词语言
分类语言是运用概念划分的原理,以分类号为标识,将各种概念按学科性质加以划分和排列,用以分门别类地、系统地组织信息的一种检索语言,它又可以分为体系分类语言和组配分类语言以及混合分类语言。