信息检索复习资料全.docx

上传人:b****3 文档编号:10862951 上传时间:2023-05-28 格式:DOCX 页数:21 大小:172.46KB
下载 相关 举报
信息检索复习资料全.docx_第1页
第1页 / 共21页
信息检索复习资料全.docx_第2页
第2页 / 共21页
信息检索复习资料全.docx_第3页
第3页 / 共21页
信息检索复习资料全.docx_第4页
第4页 / 共21页
信息检索复习资料全.docx_第5页
第5页 / 共21页
信息检索复习资料全.docx_第6页
第6页 / 共21页
信息检索复习资料全.docx_第7页
第7页 / 共21页
信息检索复习资料全.docx_第8页
第8页 / 共21页
信息检索复习资料全.docx_第9页
第9页 / 共21页
信息检索复习资料全.docx_第10页
第10页 / 共21页
信息检索复习资料全.docx_第11页
第11页 / 共21页
信息检索复习资料全.docx_第12页
第12页 / 共21页
信息检索复习资料全.docx_第13页
第13页 / 共21页
信息检索复习资料全.docx_第14页
第14页 / 共21页
信息检索复习资料全.docx_第15页
第15页 / 共21页
信息检索复习资料全.docx_第16页
第16页 / 共21页
信息检索复习资料全.docx_第17页
第17页 / 共21页
信息检索复习资料全.docx_第18页
第18页 / 共21页
信息检索复习资料全.docx_第19页
第19页 / 共21页
信息检索复习资料全.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

信息检索复习资料全.docx

《信息检索复习资料全.docx》由会员分享,可在线阅读,更多相关《信息检索复习资料全.docx(21页珍藏版)》请在冰点文库上搜索。

信息检索复习资料全.docx

信息检索复习资料全

科学信息检索与应用

第一章绪论

1.情报检索与科学研究关系

2.个体研究阶段,世界上最早出现的手工检索工具:

答:

1821年瑞士出版的《物理科学进展年报》

1830年德国创办的文摘杂志《药学总览》

3.社会化阶段,研制大型检索工具:

答:

美国1884年创办了《工程索引》(EI)

美国1907年创办了《化学文摘》(CA)

美国1926年创办了《生物学文摘》(BA)

英国1896年创办了《科学文摘》(SA)

4.自动化阶段,产生新的检索理论:

答:

1951年Taube,M提出:

单元词组配法

1958年Citron,J提出:

轮排索引

1958年Luhn,H提出:

定题服务(SDI)

二战期间…

案例:

曼哈顿工程-阿波罗计划

5.科技文献概念

答:

记录在载体上的科技知识,包括科技事实、数据、理论方法、构思和假设等。

(文献/科技文献)

6.文献信息源,按文献载体形式划分:

答:

印刷型文献:

指印刷术发明之后,以纸张为存储载体,通过油印、铅印、胶印、静电复印等手段,将文字固化在纸张上所形成的文献。

缩微型文献:

又称为缩微复制品文献,它是以感光材料为载体,以印刷型文献为母本,采用光学摄影技术,将文献的体积浓缩而固化到载体上。

机读型文献:

机读型文献的全称为计算机阅读型,是以磁性材料为存储载体,以穿孔、打字或光学字符识别装置为记录手段而形成的文献。

声像型文献:

又称为视听型文献,它是以磁性材料或感光材料为载体,借助特定的机械设备直接记录声音信息和图像信息所形成的文献。

7.文献信息源,按文献的出版形式划分:

答:

科技图书(ScienceandTechnicalBook)

科学期刊(ScienceandTechnicalJournal)

科技报告(ScienceandTechnicalReport)

专利文献(PatentDocument)

会议文献(ConferencePaper)

学位论文(DegreeThesis)

标准文献(StandardLiterature)

政府出版物(GovernmentDocument)

产品样本(ProductStylebook)

技术档案(TechnicalFiles)

8.文献信息源,按文献的产生、加工、用途划分为:

答:

一次文献,又称原始文献。

以本人的研究成果为基本素材创作而成的文献。

二次文献,将分散的一次文献进行选择、加工、整理之后所得到的产物,是为了便于管理和利用一次文献而编制的检索工具。

三次文献,利用二次文献查阅大量一次文献,并将其进行综合、分析、研究而编写出来的文献。

9.文献寿命缩短

半衰期:

贝纳尔(Bernal,J.D)提出半衰期:

某学科现时尚在利用的全部文献中较新的一半,是在多长一段时间内(X年)发表的。

经过X年,某学科领域其一半文献的利用价值已逐渐衰减。

例如:

生物科学文献的半衰期是3年,也就是说,现时仍在利用的生物科学文献的50%,其出版年龄不超过3年。

换句话说,上述生物学文献的半衰期(一半老化的时间)是3年。

表1.各类科技文献使用寿命

文献类型

使用寿命

文献类型

使用寿命

科技图书

10-20年

科技期刊

3-5年

科技报告

10年

标准文献

5年

学位论文

5-7年

产品样本

3-5年

平均使用寿命为5-6年

表2.不同学科文献半衰期

学科

半衰期

学科

半衰期

学科

半衰期

数学

10.5

地理学

16.0

生物、医学

3.0

物理学

4.6

化工

4.8

生理学

7.2

化学

8.1

冶金工程

3.9

植物学

10.0

天文学

4.7

机械工程

5.2

农林科学

5.9

地质学

11.8

工程技术

3.2

社会科学

5.0

10.情报检索(InformationRetrieval)是指将信息按一定的方式组织存储起来,并根据信息用户的需要找出相关信息的过程。

11.主题检索语言:

答:

主题词:

能表达文献的实质内容,经过规范化处理的名词术语。

如,中国《汉语主题词表》、《医学主题词表》、《农业、生物科学主题词表》…

关键词:

能表达文献主要内容的词汇或术语,未经过规范化处理。

12.评价指标

答:

英国情报学家克莱弗登(Cranfield)在分析用户基本要求的基础上,提出了6项系统性能的指标,它们是:

收录范围、查全率、查准率、响应时间、用户负担和输出形式,其中查全率和查准率是两个最常用的重要指标。

查全率(Recallratio):

指检出的相关文献量(a)与检索系统中相关文献总量(a+c)的比率。

例如:

某课题检出相关文献49篇,而该检索工具中与课题相关的文献总量有70篇,那么,此次检索的查全率为70%。

查准率(Precisionratio):

指检出的相关文献量(a)与检出的文献总量(a+b)的比率。

例如:

某课题检出文献总量为60篇,经筛选只有30篇与课题相关,那么此次检索的查准率为50%。

13.效果评价

答:

表3.各种因素对查全和查准率的影响:

影响因素

漏检率

误检率

数据库标引不全、漏标、误标

29.8%

11.5%

检索语言专指词不足、词间关系层次错误

10.2%

35.7%

检索式用词不当,组配错误

29.9%

26.9%

程序功能欠缺,设备局限

25.0%

16.6%

其他因素

5.1%

9.3%

本章思考题

1.试述情报检索与科学研究二者间的关系。

(材料第一题)

2.在个体研究阶段,最早出现的手工检索工具有哪些?

(材料第二题)

3.19世纪末-20世纪初,研制并产生了哪些大型检索工具?

(材料第三题)

4.二战以后,产生了哪些新的检索理论?

(材料第四题)

第二章计算机检索方法与制定检索策略

1.布尔逻辑算符检索法

答:

是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。

布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。

逻辑运算符有三种:

与、或、非

逻辑与(and或*)是一种用于交叉概念和限定关系的组配。

它可以缩小减缩范围,有利于提高查准率。

例如:

insulinanddiabetes

凡是用and的检索式,and两侧的检索词必须同时出现在同一条记录中,该记录才算命中。

逻辑或(or或+)是一种用于并列关系的组配。

它可以扩大检索范围,防止漏检,有利于提高查全率。

例如:

cancerortumor

凡是用or的检索式,or两侧的检索词只要有一个在一条记录中出现,该记录就算命中。

逻辑非(not或-)是一种排斥关系的组配。

用来从原来的检索范围中排除不需要的概念,有利于提高查准率。

例如:

solarenergynotnuclear

凡是用not的检索式,not前面的检索词必须在记录中出现而后面的检索词一定不能出现,该记录才算命中。

2.三个提示

提示1:

在使用“逻辑非”进行组配时特别注意,否则会出现漏检。

如上例是查找有关太阳能并排除核能方面的文献,结果查到一篇有关一种替代核能燃料方面的文献。

提示2:

在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。

复合逻辑检索式中,运算优先级别从高至低依次是not、and、with、or,可以使用括号改变运算次序。

如(AorB)andC,先运算(AorB),再运算andC。

提示3:

在检索过程中,应根据课题的具体要求,选用不同的逻辑算符进行组配,通过改变检索项的逻辑组配关系,可扩大或缩小检索范围。

如,检索有关“汽轮机叶片制造”方面的文献

A-汽轮机B-叶片C-制造

检索式:

AandBandC;AandB;BandC

3.位置算符检索法

又称邻接算符(adjacentoperators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。

跟and运算符类似,但比and运算符功能更具体。

例如:

查找“细菌对染料破坏”方面的文献

常用位置运算符有(w)(n)(s)(f)

(1)(W)(词间位置算符,含义为With)

词序不能颠倒,两词之间不允许插入其它词,但允许有空格。

例如:

Economy(W)Mathematics

4.截词(Truncation)检索法

截词有多种用途:

(1)词尾截断可得到该单词所提及的所有词语(单数和复数)

(2)词间切断或通配符:

可找到该单词的所有变化形式或不同拼法。

?

=一个字符

*=一个或多个字符

例如:

检索单复数和不同拼法等词语

注意:

截词检索时,不可截的太短,否则会检出无关概念。

如,Com*

5.检索限定

字段限定包括TI、AB、DE、AU;时间范围限定PY;分类限定CC;语种限定LA;文献类型DT……等

字段限定也是调整检索策略的一种重要手段。

多数检索系统对不指定字段的检索词通常在所有字段(allfield)中进行检索。

如果想指定在文献的题目等特定字段中检索,就需要使用字段限制。

字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索的查准率。

例如:

TeaandBreeding/TI

AU=Zhou,GZ

6.布尔逻辑检索式编写

(1)逻辑运算符使用方法

布尔逻辑检索式是检索策略的逻辑表达式,其表达形式实际上是上述各步骤结果的综合体现,即使用合适的逻辑算符和位置算符,将各检索词进行组配,使之确切地表达课题的主题概念,符合检索的需求。

例1:

查找分别单独论述微型汽车发动机和摩托车发动机的文献,并要求排除那些同时论述这二个主题的文献”。

A-微型汽车B-摩托车C-发动机

检索式:

(AandCorBandC)not(AandBandC)

(AandCorBandC)not(AandB)

例2:

查找论述太阳能或者风能的文献,但不要其中又论及水能的文献。

A-太阳能B-风能C-水能

检索式:

(AorB)notC

例3:

电视中暴力行为对儿童的影响。

A-电视B-暴力行为C-儿童。

检索式:

AandBandC

例4:

检索有关利用杀虫剂控制蚜虫方面的文献。

A-insecticdeB-aphides

C-control

检索式:

AandBandC

AandB

提问:

哪个是最佳检索式?

例5:

查找三氧化二砷与空气污染方面的文献。

A-三氧化二砷(As)B-空气C-污染

检索式:

(ArsenictrioxideorAs)andairandpollution

ArsenictrioxideorAsandairpollution

ArsenictrioxideorAs

提问:

在上述三个检索式中,哪个为最佳或最合理检索式?

为什么?

7.编写逻辑检索式一般原则

答:

用and连接检索词,将出现频率不高的词放在and的左边。

用or连接检索词,将出现频率高的词放在or的左边。

当用and和or两种算符,并且连续使用多个or算符,or应放在and的左边(or部分用括号)。

8.鲍纳·查尔斯(C.Bourne)检索策略

答:

最专指面优先策略(下位类或同类)

积木型概念组策略(ORAND)

引文珠型增长策略(单篇文献多篇文献)

逐次分馏策略(上位类下位类)

见示例:

最专指面优先策略(提高查准率)

例如:

果蔬农药残留量的检测与分析

(水果or蔬菜)and农药残留量and检测and分析

(2)

(水果or蔬菜)and农药?

(4110)

(水果or蔬菜)and农药残留量and检测(38)

(水果or蔬菜)and农药?

and检测and分析(60)

积木型概念组策略(提高查全率)

例如:

检索氮磷钾对烟草产量和品质的影响

S1(NorPorK)

S2(NitrogenorPhosphateorPotassium)

S3(TobaccoorNicotiana)

S4(QualityorYield)

(S1orS2)andS3andS4

引文珠型增长策略(扩大检索范围)

例如:

检索分子标记在植物育种中的应用

植物and分子标记and育种

相关词:

抗病育种抗病基因遗传标记

基因工程基因图谱基因表达…

逐次分馏策略(缩小检索范围)

例如,检索农作物病虫害控制方面的文献

作物and病虫害(998)

稻瘟病and控制(49)

小麦and锈病and防治(300多篇)

玉米and螟虫and防治(13)

编写逻辑检索式小结:

使用and算符越多,限制条件就越多,查准率较高;使用or算符越多,连接的相关词就越多,查全率也就越高;使用not算符去掉不相关的概念,可提高查准率。

在检索式中不要连续使用多个and算符,以免限制过严而漏检文献,甚至查不到文献。

9.位置算符使用方法

例如:

查找聚磷酸氨的制备方法方面的文献

Ammonium(S)polyphosphateand(manufasyureorpreparation)152篇

Ammonium(S)polyphosphate(S)(manufasyureorpreparation)17篇

Ammonium(S)polyphosphoricacid(S)(manufasyureorpreparation)4篇

Polyphosphoric(L)Ammonium(S)(manufasyureorpreparation)1篇

Ammonium(S)polyphosph?

(S)(manufasyureorpreparation)38篇

10.制定检索策略

检索策略由检索标识和检索运算符(与、或、非、截断符、位置符、括弧等)组合而成。

制定检索策略分初级检索、高级检索、专业检索三种类型。

如,中国期刊全文数据库(CNKI)检索类型

1.分析各个检索词之间的位置关系和逻辑组配关系。

2.分析检索词应该限定在哪个字段中检索(是在所有基本索引中检索还是限定在分类、主题、自由词、文摘还是其他辅助索引字段中检索)。

实例分析:

(1)课题分析:

直接从项目名称中确定检索概念

例如:

检索“聚乙烯的合成”文献

主要概念:

聚乙烯、合成

检索式:

聚乙烯and合成

polyethyleneandSynthesis

(2)课题分析:

找出隐含概念

例如:

检索“灌溉用的橡塑多孔管”文献

Rubber-PlasticPorousPipeForIrrigation

隐含概念:

橡胶、塑料

主要概念:

橡胶、塑料、多孔管、灌溉

检索式:

(橡胶or塑料or橡塑)and多孔管and灌溉

(3)课题分析:

泛指概念具体化

例如:

检索“唐山综合防灾的研究”文献

主要概念:

城市、地震、洪水、火灾、决策支持系统、专家系统

检索式:

城市and(地震or洪水or火灾)and(决策支持系统or专家系统)

(4)课题分析:

排除重复无关的概念,避免漏检

例如:

检索“河豚毒素的液相色谱分析”文献

主要概念:

河豚毒素、液相色谱、分析

由于液相色谱本身就是一种分析方法,因此将“分析”这一概念排除。

检索式:

河豚毒素and液相色谱

11.调整检索策略

每一次检索之后都要对检索结果进行检查和评价,如果与需求不符就要修改和调整检索策略,重新进行检索。

(1)输出篇数过多时,原因主要有以下几点:

①对检索词限制条件过宽。

包括字段限制,时间限制,分类限制等。

②主题概念太少或具有多义性导致误检。

③对所选的检索词截词截得过短。

(2)输出篇数过少时,原因可能有以下几点:

①对检索词限制条件过窄。

②选用了不规范的主题词作为检索词,或者同义词没有充分考虑。

例如,没有使用学名“马铃薯”而使用了俗名“土豆”会造成漏检。

③上位概念或下位概念没有完整运用。

例如,“燃料”是上位概念,下位概念可以有“煤”、“油”、“煤气”、“天然气”等,这些概念在检索“燃料”时都应该加以考虑。

本章思考题

1.计算机检索的基本方法有哪些?

答:

(1)布尔逻辑算符检索法

逻辑与(and或*)逻辑或(or或+)逻辑非(not或-)

(2)位置算符检索法

常用位置运算符有(w)(n)(s)(f)

(1)(W)(词间位置算符,含义为With)

(3)截词(Truncation)检索法

(4)检索限定

2.根据自己的专业或研究方向,拟定一个合理的布尔逻辑检索式(提问式)。

第三章中外数据库检索方法

1.中国知网(CNKI)

文献总量:

5656万篇,其中自然科学文献为2441万篇,社会科学文献为2540万篇,国际学术文献为344万篇。

文献类型:

有学术期刊、硕博学位论文、工具书、会议论文、年鉴、专著、专利文献、标准文献、科技报告和研究成果。

2.库间引文链接

通过引文数据库的检索,引证文献、参考文献、同类文献成功链接,同时,实现了《中国期刊全文数据库》和《中国优秀博硕士学位论文全文数据库》之间的互引用链接,即期刊库如果引用了学位论文库的文章,期刊库检索结果中会将学位论文库的该篇文章作为参考文献提供链接,并可点击链接查看文章题录,进而获取原文,构建了库间的知识网络。

本章思考题

1.中国知网平台有哪些作用?

答:

(1)跨库检索

《中国期刊全文数据库》;《中国优秀博硕士论文全文数据库》;《中国重要会议论文全文数据库》;《中国重要报纸全文数据库》;《中国图书全文数据库》;《中国引文数据库》等CNKI系列源数据库实现了统一跨库检索,用户能够在一个界面下完成以上所有数据库的检索。

(2)库间引文链接

通过引文数据库的检索,引证文献、参考文献、同类文献成功链接,同时,实现了《中国期刊全文数据库》和《中国优秀博硕士学位论文全文数据库》之间的互引用链接,即期刊库如果引用了学位论文库的文章,期刊库检索结果中会将学位论文库的该篇文章作为参考文献提供链接,并可点击链接查看文章题录,进而获取原文,构建了库间的知识网络。

(3)知识网络系统

通过文献之间、知识元之间、分类导航之间的交叉链接,构建起节点丰富、交织纵横的知识网络系统。

文献之间的链接包括引证文献、参考文献、同类文献等,知识元链接包括作者、机构、刊名、关键词、相关作者群、相关研究机构、相关关键词等,同时,还可方便查看其他相关类别下的文献。

(4)知识元链接

包括作者、机构、刊名、关键词以及相关作者、相关机构、相关关键词等设置链接,通过这些链接可检索知识网络中心配制的数据库的相应字段,获取检索结果。

(5)引文链接

包括引证文献和参考文献链接。

引文链接成功率接近100%。

引文链接功能,除了可以构建相关的知识网络外,还可用于个人、机构、论文、期刊等方面的计量与评价。

(6)相似文献链接

即同类文献链接。

基于相似检索技术,实时运算,提供内容相关的相似文献链接。

特点:

链接成功率约100%;可实现内容相似的文献间链接;还可实现跨学科关联,如不同主题,使用相似方法或技术的文献。

中国知网(CNKI)检索平台作用分析:

可扩检相关文献数量

掌握相关研究机构

掌握相关文献作者研究情况

了解作者文献被引证情况

通过期刊导航了解期刊出版状况及选刊投稿

2.检索学位论文、科技报告、专利文献等特种文献应选择哪些数据库?

第五章ISIWebofKnowledge进展与应用

1.WebofScience简介

答:

ISI(InstituteforScientificInformation)美国科学情报研究所

SCI(ScienceCitationIndex)科学引文索引

JCR(Journal Citation Reports)期刊引用报告

三大引文数据库:

—ScienceCitationIndexintroducedin1963

—SocialSciencesCitationIndexintroducedin1973

—Arts&HumanitiesCitationIndexintroducedin1978

2.引文(Citation)概念

答:

在文献甲中提到或描述了文献乙,并以文后参考书目或脚注的形式列出了文献乙的出处,其目的在于指出信息的来源、提供某一观点的依据、借鉴陈述某一事件等。

引文通常也称为被引文献或参考文献,引证文献通常也称为来源文献。

3.H-index(h指数):

答:

是美国加州大学物理学家乔治·赫希(Jorge E.Hirsch)提出的,h代表高引用次数(highcitations),h指数已经被公认为比平均引用率更科学的指标。

所谓h指数,是指一个人有n篇论文分别被引用了至少n次。

赫希认为h指数能够比较准确反映一个人的学术成就。

一个人的h指数越高,则表明他的论文影响力越大,与其它统计方法不同的是,要确定一个人的h指数相当容易,只要到SCI网站,查出某个人发表的所有SCI论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于或等于论文被引次数,那个序号就是h指数。

4.多层次的限定与精确的检索作用

答:

发现某研究领域的隐含的发展趋势:

把握学科领域的最新动态

了解某特定课题在不同学科的分布情况

获取某学科领域核心研究人员信息

5.影响因子(ImpactFactor)

答:

指某期刊前两年发表的论文在统计当年的被引用次数与该期刊在前两年内发表的论文总数之比。

又称作2年影响因子(IF2)。

影响因子这一评价期刊的重要指标是SCI创始人尤金,加菲尔德(EugeneGarfield)1972年提出的,这是一个国际上通行的传统期刊评价指标。

通常影响因子越大,它的学术影响力和作用也越大。

具体算法为:

影响因子=该刊前两年发表论文在统计当年被引用的总次数/该刊前两年发表论文总数

6.WebofScience检索方法和途径

答:

(1)布尔逻辑算符检索

(2)近似检索

(3)截词检索

(4)检索途径

7.近似检索(ExactSearch)

词组检索

如果希望精确地检索某个短语,应将其放置在引号内。

范例:

“stemcell”

Same

Same算符连接的关键词必须在同一句话内,但关键字前后顺序不限。

在关键词字段检索时,利用“SAME”连接符得到的检索结果是同一个短语中的出现检索词的记录。

范例:

stemSAMEcell

本章思考题

1.什么是引文?

利用引文有哪些作用和意义。

2.“same”运算符在数据库中如何使用?

第六章硕士论文写作与选刊投稿

1.学位论文基本结构

答:

前置部分:

封面、题名页、目次页、中英文摘要、关键词

主体部分:

引言、正文、

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2