信息检索期末重点 3.docx

上传人:b****3 文档编号:10861989 上传时间:2023-05-28 格式:DOCX 页数:19 大小:61.39KB
下载 相关 举报
信息检索期末重点 3.docx_第1页
第1页 / 共19页
信息检索期末重点 3.docx_第2页
第2页 / 共19页
信息检索期末重点 3.docx_第3页
第3页 / 共19页
信息检索期末重点 3.docx_第4页
第4页 / 共19页
信息检索期末重点 3.docx_第5页
第5页 / 共19页
信息检索期末重点 3.docx_第6页
第6页 / 共19页
信息检索期末重点 3.docx_第7页
第7页 / 共19页
信息检索期末重点 3.docx_第8页
第8页 / 共19页
信息检索期末重点 3.docx_第9页
第9页 / 共19页
信息检索期末重点 3.docx_第10页
第10页 / 共19页
信息检索期末重点 3.docx_第11页
第11页 / 共19页
信息检索期末重点 3.docx_第12页
第12页 / 共19页
信息检索期末重点 3.docx_第13页
第13页 / 共19页
信息检索期末重点 3.docx_第14页
第14页 / 共19页
信息检索期末重点 3.docx_第15页
第15页 / 共19页
信息检索期末重点 3.docx_第16页
第16页 / 共19页
信息检索期末重点 3.docx_第17页
第17页 / 共19页
信息检索期末重点 3.docx_第18页
第18页 / 共19页
信息检索期末重点 3.docx_第19页
第19页 / 共19页
亲,该文档总共19页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

信息检索期末重点 3.docx

《信息检索期末重点 3.docx》由会员分享,可在线阅读,更多相关《信息检索期末重点 3.docx(19页珍藏版)》请在冰点文库上搜索。

信息检索期末重点 3.docx

信息检索期末重点3

信息检索考试提纲

【概念】

1、信息——自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互联系、相互作用等运动状态的表达。

2、知识——人们在改造世界的实践中所获得的认识和经验的总和,是人的大脑通过思维重新组合的系统化的信息集合。

3、文献——凡是记录有信息或知识的一切载体。

4、情报——为了解决一个特定的问题所需要的激活了的、活化了的特殊知识或信息。

关系:

P7

①包含关系

文献是记录有知识的载体,知识是信息的一部分

情报来源于信息,信息包含了情报

文献包含于信息内

②转化关系

文献是记录有知识的载体,当文献中的知识信息传递给用户并为用户所利用时,就转化为情报。

③交叉关系

情报虽多来自文献,但也可能来自口头和实物信息,所以情报与信息、文献存在交叉关系。

例如:

感觉到天气的冷暖(信息)知道是气候的变化引起了冷和热(知识)

收听天气预报得知气温变化了(文献)为了研究果树的生长规律而收集的气象资料(情报)

5、文献信息检索语言——用来描述文献特征和表达信息提问,沟通信息标引人员和信息检索者双方思想的一种人工语言。

6、检索工具——用来报道、存储和查找文献线索或全文的工具。

【文献类型的划分及判断】

1、按文献的载体形式划分P9

①手写型信息资源

手写记录,包括泥板、羊皮纸、甲骨、卜辞、碑铭、竹简、绢帛以及后来的笔记。

记录方式为人工抄写,包括手写稿、信件、日记、原始档案等。

②印刷型信息资源

以纸张为载体,通过铅印、油印、胶印等手段。

例如各种书刊。

占据空间大,不易管理保存。

③缩微型信息资源

以印刷型文献为母本,以感光材料为载体。

包括缩微胶卷、缩微平片、缩微卡片。

节省空间,保存时间长,不易损坏,但必须借助微缩阅读机,设备投资较大。

④声像型信息资源

采用录音、录像、摄影、摄像等手段,将信息记录在光学材料、磁性材料上。

例如磁带、磁盘、光盘、软盘等。

存储密度高、直观、真切,尤其适于记录用文字、符号难以描述的复杂信息和自然现象,但是不能直接阅读,费用高。

⑤机读型信息资源

以磁性材料为载体,以磁录技术为记录方式。

以数字代码方式将信息存储到磁、光、电介质上。

存储信息密度高、存储速度快、读取速度快、原有记录可更改、易于实现资源共享、易于网络化和网络化程度高、高速度远距离传输信息。

2、按文献的出版形式划分P10

①图书

内容比较成熟全面、系统可靠;但是出版周期长,传递信息速度慢

分为A.阅读型图书

a.教科书b.专著(学术著作)c.技术书d.文集e.丛书

B.参考工具书

例如:

字词典、类书、政书、百科全书、年鉴、手册、名录、图谱、传记资料etc。

②期刊

定期或不定期的连续出版物。

③报纸

以刊载新闻和评论为主的定期出版物。

特点:

时事性、普及性、大众性、服务性、传递速度快、信息量大、保存性、便览性、集纳性最具影响力的“第一传媒”

④科技报告

对科学、技术研究结果的报告或研究进程的记录。

大部分报告秘密发行,小部分公开。

⑤会议文献

在各种科技会议上,宣读和交流的论文、报告及其他的有关资料,它是科技文献的重要组成部分。

特点:

A.内容新颖,及时性强

B.学术水平高,专业性强,可靠性强

C.数量庞大,内容丰富;出版形式多样

按出版时间的先后可分为:

会前文献、会中文献、会后文献

⑥专利文献

由政府专利机构出版的、有创造发明的设计、制造工艺的详细说明,表明在一定年限内发明所有者享有制造、使用、销售占有权的法律性文献。

特点:

编写格式统一、出版快、内容新颖、技术性强、实用性强、具有法律效力。

寓技术、法律、经济情报于一体。

⑦标准文献

对重复性事物或概念所作的统一规定。

是一种规章性的技术文献,具有一定的法律约束力。

一个标准解决一个问题,标准的新陈代谢频繁。

按标准化对象分为:

技术标准、管理标准、工作标准

按审批机构的级别和标准的使用范围,

我国分为:

国际标准、国家标准、部颁标准、企业标准

国外分为:

国际标准、区域标准、国家标准、专业(部)标准、企业标准

按内容特点可分为:

方法标准、术语标准

“GB”——我国的强制性国家标准(具有法律属性)

“GB/T”——我国的国家推荐性标准

“ZB”——专业标准

“NY/T”——我国的一项农业推荐标准

标准号—每个标准的编号,由权利机构代号、顺序号、制定年份组成

例如:

GB3559-2001

⑧学位论文

⑨政府出版物

各国政府部门及其所属机构所出版的文献。

分为行政性文件和科技性文件

政府出版物大部分公开,少数保密,但若干时间后则予以公开

⑩产品资料

各国厂商为了推销产品而出版发行的一种商业性宣传资料。

特点:

图文并茂、形象直观、出版发行快、鲜明的商业性质,较散

⑾技术档案

在自然科学研究、生产技术、基本建设等活动中形成的应当归档保存的科技文件。

特点:

内容真实详尽具体可靠、保密性强、保存期长

3、按文献的加工深度划分P17

①零次文献——未经出版发行或未进入社会交流的最原始的文献。

例如:

私人笔记、工程图样、实验记录、论文草稿、发言稿、会议记录、私人信件、绝密文件、技术档案等。

特点:

信息量丰富、内容新颖、不成熟、难以获得

②一次文献(原始文献)——以作者本人的生产或科研工作成果为依据所记载的

例如:

科学专著、独创部分的学位论文、科研报告、专利说明书、会议文献、期刊论文等。

特点:

“第一手资料”内容具体详尽

注!

无论是否参考或引用了他人的资料,无论其载体或出版类型如何,均属于一次文献。

③二次文献(检索信息工具)——对大量无序的一次文献的内外部特征(题名、作者、出处等)进行加工整理而成的各种书目、题录、索引、文摘等。

特点:

报道性、检索性、汇编性、简明性

④三次文献(既是信息检索和利用的对象,又是检索信息的工具)

在二次文献的基础上,将搜集到的一次文献进行再加工的产物

特点:

综合性强、系统性好、知识面广、有的还具有检索功能

例如:

综述、专题述评、学科年度总结、进展报告、数据手册、年鉴、百科全书、名录、图录、表谱、指南等。

 

【文献重要外表特征】

1、国际标准书号(ISBN)P11

2007年以前ISBN7-5341-1951-0/G.362

①②③④⑤

①——地区或语种号

0-美语、1-英语、2-法语、3-德语、4-日语、5-俄语、7-汉语等

②——出版者号

①②合称“出版者前缀”,是一个出版者的标准代号。

③——书序号

④——计算机校验码

⑤——《中图法》基本大类类号和种次号

2007年以后ISBN978-7-5341-1951-0/G.362(13位)

现有的出版机构在原ISBN号前+“978”,新成立的出版机构+“979”。

2、国际标准刊号(ISSN)P13

ISSN1001-8867由8位数字组成

3、国内统一刊号CNP13

CN11-2746/G2由地区号(2位数)+序号(4位数),分类号

4、专利号

ZL+年代号(2位数)+专利类型(1位数)+流水号(5位数)+计算机校验码

例子:

ZL02346023.7、ZL200420034660.3

注:

2004年以后,年代号使用4位数,流水号使用7位数

专利类型:

1—发明专利、2—实用新型专利、3—外观设计专利

【检索语言类型及判断】P33

按规范化程度分为:

自然语言(未规范化语言)、受控语言(规范化语言)

按表达信息的特征分为:

描述外部特征语言、描述内部特征语言

1、文献外部特征语言(较简单)

以文献上客观存在显而易见的外部特征(题名、作者姓名、机构、出版地、出版社、ISBN号、ISSN号、专利号、标准号等)作为检索依据

2、文献内部特征语言(较复杂)

对文献的内容进行分析判断而得出的主题概念或学科类别,按一定结构和规则加以描述的人工语言。

如:

分类号、主题词等

【常用的分类法的分类原则和分类号结构】P35

1、我馆书刊索书号

图书:

G210.7/X165

期刊:

F4/710.3

2、《中国图书馆分类法》中图法(最通用)

22个基本大类,逐级展开为二级、三级、四级......类目

例如:

I“文学”——一级类目

I2“中国文学”——二级类目

I24“小说”——三级类目

I242“古代至近代作品”——四级类目

I242.4“章回小说”——五级类目

被区分的类为上位类,区分出来的类为下位类

例如:

“F0经济学”、“F1世界各国经济概况、经济史、经济地理”等都是“F经济”的下位类,F0、F1为同位类

分类表的类号每增加一位字母或数字代表增加一级分类

“工业技术”所属的二级类目用双字母表示,如“TB、TD、TE...”

分类号的三位数后,用“.”隔开,例如I242.4

O17数学分析(按学科专业归类)

特点:

A、能体现学科的系统性

B、揭示事物纵向的隶属性和派生关系以及横向的平行关系

C、简单明了

D、直线型序列结构,难以适应复杂的主题概念

E、类目预先确定,灵活性差

3、中国科学院图书馆图书分类法

51.6数学分析(按学科专业归类)

4、国际专利分类法IPC(最重要、使用最广泛的一种专利分类法)

采用功能和应用结合的分类原则,按发明的技术主题设置类目,以等级形式逐级分类

分类号采用英文大写字母和数字混排由部号、大类号、小类号、主组号、小组号组成,例如:

A01B1/02

部号用大写字母A-H表示,分部只有标题没有类号;

大类号=部号+2位数字例如:

B01D01/02;

小类号=大类号+1个字母,但A、E、I、O、U、X6个字母不能用;

主组号=小类号+1-3位数+/00,例如:

F04D29/00

分组号=主组号+一个除00以外的至少两位数字(斜线后的2-5位数字),例如:

F04D29/30PS:

斜线后的数字不表示等级关系

A63B53/12金属长柄的高尔夫球棍(按功能和用途归类)

【信息检索的类型】(根据检索对象和目的不同划分)P43

检索类型

文献检索

数据检索

事实检索

检索对象

原始文献的线索或原文

数值数据

已存在的事实

利用工具

检索工具或书目型数据库

参考工具书或数据型数据库

参考工具书或事实型数据库

检索结果

相关的文献

确定的数据

已确定的事实或有关的数据

【检索工具的类型及判断和著录格式】P51

(按著录文献的特征划分)

1、目录(书目):

以单位出版物为著录对象。

如:

一本书或一种期刊

揭示出版物外表特征的检索工具

著录包括:

出版物名称、责任者(著者、编者或译者)、出版项(出版地、出版社、出版时间、版次等)和稽核项(开本、ISBN号、价格等)

著录格式示例:

物流信息技术与应用/孟军齐编.-北京:

人民交通出版社,2009.04.-26cm.-ISBN978-7-220-07784-5:

¥33.00

常见的目录型检索工具:

国家书目、馆藏目录、联合目录、出版社目录、专题文献目录等。

2、题录:

以单篇文献为著录对象。

如:

一篇文章或一本书中的某一章节

揭示文献外表特征的检索工具

著录包括:

题录号、文章题名、著者及其工作单位、文献出处(刊名、年、卷、期、页码)等。

著录格式示例:

080910413存款保险制度的比较分析及其启示/张正平(北京工商大学经济学院,100037)//河北社会科学(郑州).-2008,16(3).-45-48

★题录与目录的区别在于著录的对象不同。

目录著录的对象是单位出版物,题录著录的对象是单篇文献。

题录所揭示的文献深度较目录强。

3、文摘型:

以单篇文献为著录对象,但在题录的基础上附有摘要。

除了著录文献的外部特征外,更着重描述文献的内容

著录包括:

文摘号、题名、著者及其工作单位、文献出处、文献类型、语种、主题词、图表数和参考文献数等

著录格式示例:

09161904论城区经济发展战略=Studyonurbaneconomicdevelopmentstrategy[刊,中]/张占仓(河南省科学院,郑州450002)//经济地理.-2009,29

(1).-45-48

索引

1、主题(关键词)索引

2、分类索引

3、著者索引

4、引文索引

5、其他索引

【图书、期刊论文的引文著录格式】

1、图书:

编者姓名.书名.[书].出版地:

出版社,出版年.月

例如:

赵庆国著.中国农村社会养老保险问题研究[M].北京:

中国农业出版社,2007.6

2、期刊论文:

作者.题名[期刊论文].刊名:

发表年,(期)

例如:

王斌.中国社会养老保险发展演变与启示[J].金融经济:

下半月.2011,(6)

【数据库构成、计算机检索的过程】P58

1、数据库构成

A、字段

a、存取号字段

能被计算机识别的特定号码(标识符)

b、基本索引字段

表达文献内容特征的字段和部分外表特征字段

如:

题名、文摘、叙词、自由词等

c、辅助索引字段

表达文献外表特征的字段

如:

作者、机构、出版年、刊名、语种、文献类型等

B、记录

由若干个字段组成,它是计算机可存取的基本单位

每条记录均有一个存取号

1条记录由标题字段、文摘字段、主题词字段、作者字段等组成

全文数据库中,一条记录相当于一篇文章;

书目数据库中,一条记录相当于一篇文章的目录、题录或文摘

C、文档

由众多的记录或字段组织而成

一个数据库往往包括一个顺排文档和多个倒排文档

a、顺排文档(主文档)

存取号是根据记录存入的时间先后顺序,从小到大分配。

文献记录按线性顺序排列,只能按存取号顺序查找

相当于手工检索工具书中的正文部分

b、倒排文档(索引文档)

将某一字段提取出来,按一定顺序排列,列出存取号(因存取号置后被称为倒排文档)

相当于手工检索工具书中的作者索引、主题索引等辅助索引

基本索引倒排文档(按基本索引字段排列)

倒排文档辅助索引倒排文档(按辅助索引字段排列)

★在实施检索时,倒排文档必须和顺排文档相互配合。

2、计算机检索的过程

★计算机检索时,①检索提问式只有一个主题概念:

计算机根据这个主题概念,进入所对应的文献特征标识组织的倒排文档中搜索,得到相对应的文献特征标识,然后根据该特征标识后标注的存取号,从顺排文档中调出记录。

②检索提问式是带有逻辑运算的多个主题概念的复杂检索式:

计算机先从数据库的中的各对应的倒排文档中找到这些主题概念的文献特征标识,然后根据布尔逻辑运算,把这些文献特征标识后标注的存取号集中运算,运算结果得到符合要求的存取号,最后根据这些存取号从顺排文档中调出相应记录。

【网络检索工具的类型及判断】P75

1、按检索机制划分

①检索型

通过输入检索词、查找索引数据库

如:

Google、XX

②目录型

通过浏览分层目录

如:

早期的Yahoo!

、搜狐

③混合型

2、按检索内容划分

①综合型

不限制主题范围和数据类型

如:

Yahoo!

、Google、XX、搜狐、新浪

②专题型

某一主题范围

如:

英国的社会科学信息门户

③特殊型

检索某一类型信息或数据

如:

检索电话号码的555-1212和Switchboard、查询地图的MapBlast、查询图像的WebSeek

3、按包含的检索工具数量划分

①独立型

通过自身机制

如:

搜狐、XX、Google

②集合型(元搜索引擎)

集成多个独立型检索工具,提供一个统一的检索界面

如:

国际瑞士军刀、Bbmao搜索引擎、万维搜索、Seekle元搜索引擎

4、按检索资源类型划分

①Web资源检索工具

以万维网资源为主要检索对象,又以WWW形式提供服务的检索工具

A、目录型检索工具(也称网站目录、网页目录、专题目录、主题指南)

如:

Yahoo!

、OpenDirectory、搜狐网站目录、Google网页目录

适合三类检索:

用户进行笼统的主题浏览和检索;用户尚未形成精确的检索概念;综合性、概括性主题概念的检索

B、索引型网络检索工具——搜索引擎(也称关键词检索工具)

a、独立型搜索引擎(索引型搜索引擎)

b、集合型搜索引擎(元搜索引擎、多引擎同步检索系统)

c、智能搜索引擎(允许采用自然语言进行信息的检索)

d、桌面搜索引擎(软件式搜索引擎)

C、信息门户(也称信息网关)

水平信息门户如:

Sohu、Sina、Yahoo!

垂直信息门户

②非Web资源检索工具

以非Web资源为检索对象的检索工具

如:

北大天网搜索、Filez、Hytelnet、DejaNews、T、Liszt

【主题途径与分类途径检索的特点】

1、主题途径检索:

直观、灵活,适合狭窄主题的特性检索或跨学科主题的专指性检索。

2、分类途径检索:

适合族性检索,不利于特性检索,一般用于学科专业较单一、明确的文献主题检索或课题检索要求泛指性较强(内容范围较广)的文献查找。

【各种检索算符的意义及检索式的编写】P81

1、布尔逻辑算符(或与非)

最常用、最基本

“与”——and、*“或”——or、+“非”——not、-

not优先,and次之,or最后括号优先

Ps:

①“notorand”用大写还是小写,还是用“*-+”,要依不同的数据库确定

②布尔逻辑中,*-+()半角有效,全角无效

2、位置算符(邻近检索)

①(W)或(nW)运算符With

(W)检索词彼此邻近,词序不可以改变,检索词之间不允许插入词或字符,但允许空格或标点符号

例如:

CD(W)ROM=CD-ROMCDROM

control(W)system=controlsystem

(nW)检索词之间允许插入不多于n个的词,但词序不可以改变

例如:

control(1W)system=controlsystem,controlofsystem,controlinsystem

②(N)或(nN)运算符Near

(N)彼此相邻,词序可改变,但检索词之间不允许插入词或字符,但允许空格或标点符号

例如:

robot(N)control=robotcontrol,controlrobot

(nN)检索词之间允许插入不多于n个的词,但词序可以改变

例如:

control(1N)system=controlsystem,controlofsystem,controlinsystem,systemofcontrol,systemwithoutcontrol

③(F)运算符Field

两侧的检索词必须出现在同一字段中,两词前后顺序不限,两词之间允许插入其他的词或字符的个数也不限

④(L)运算符Link

两侧的检索词必须同在叙词字段(DE)中出现,两词具有等级关系,前面为主标题词,后面为副标题词

⑤(S)运算符Subfield

两词必须出现在同一子字段中,两词的相对次序不限,两词中间插入其他词的数量也不限

★上述的位置运算符可同时用,检索系统是按从左到右的顺序执行运算。

如果一个检索式既有位置算符,又有布尔逻辑算符,系统优先执行位置算符。

3、截词算符

按截断的字符数量划分

①有限截词?

一个?

代表0-1个字符N个?

代表0-N个字符

例如:

work?

?

?

——workworksworkerworking等等

②无限截词*

*代表0-N个字母无限截词*不能作为中截词

例如:

comput*——computecomputercomputingcomputablecomputions等等

按截断的位置划分

①前截词(左截词、后方一致)

前面变,后面不变

例如:

*computer——computermicrocomputer等

②后截词(右截词、前方一致)

后面变,前面不变

例如:

comput*——computecomputer等

☆后截词主要应用于4个方面:

单复数:

book?

——bookbooks

年代:

199?

——所有二十世纪90年代

作者:

Crick.A?

——所有姓氏为Crick,第一名字首字母为A

同根词:

biolog?

——biologicalbiologistbiology

③中间截词

允许检索词中间某个字符变化

例如:

wom?

n——womanwomen

organi?

ation——organisationorganization

④前后截词(左右截词)

例如:

*biolog*——neurobiologyneurobilogistmicrobiologymicrobiologist等

4、字段检索符

①CNKI中国知网and

②维普*

③万方空格“字段名称:

检索词”

【各检索系统数据库的检索式】

先运算—,再运算*,最后运算+,()优先。

1、维普P142

与用“*”,或用“+”,非用“—”

或与非运算优先级相同。

()优先,不分半全角。

M=题名或关键词、K=关键词、J=刊名、A=作者、F=第一作者、

S=机构、T=题名、R=文摘、C=分类号、U=任意字段(字段代码不分大小写)

2、中国知网P132

同字段中,与用“*”,或用“+”,非用“—”

不同字段中,与用“and”,或用“or”,非用“not”(and/or/not前后空一格,不区分大小写)

优先顺序:

非>与>或()优先,使用英文半角

SU=主题、TI=题名、KY=关键词、AB=摘要、FT=全文、AU=作者、FI=第一责任人、

AF=机构、JN=中文刊名&英文刊名、RF=引文、YE=年、FU=基金、CLC=中图分类号、SN=ISSN、CN=统一刊号、IB=ISBN、CF=被引频次

3、万方P149

4、超星读秀P167

5、国家科技图书文献中心

6、中国国家知识产权局

7、ScienceDirect数据库P187

八、XX搜索引擎P216

1、布尔逻辑算符:

逻辑与:

用空格

逻辑或:

用“|”,“|”前后空一格

逻辑非:

用“-”“-”前面空一格

2、截词检索:

自动将关键词拆分进行模糊查询,若要实现精确检索,常用双引号。

3、专业文档搜索:

DOC、XLS、PPT、PDF、RTF、ALL等类型的搜索,“关键词filetype:

doc”(关键词后空一格)

4、限定检索命令:

intitle:

限定在网页的标题内

inurl:

限定在网页的url内

site:

限定在某个具体网站或网站频道或某个域名内

【检索策略的调整】

1、查全率与查准率的关系P102

在一个检索系统中,当查准率和查全率达到一定程度后,它们之间会呈现出非线性的反变关系(互逆)。

即在查准率不断提高的同时,查全率会持续下降;反之,在查全率不断提高的同时,查准率也会持续下降。

如果两者都很低,那么两者完全可以同时得到提高。

2、提高查全率、查准率的基本方法

学会灵活应用字段、期刊范围、时间范围、学科类目、模糊与精确检索来调整查全率和查准率。

如:

逐步扩大检索范围所选择的字段顺序如下:

维普:

题名、关键词、题名或关键词、文摘、任意字段

中国知网:

题名、关键词、文摘、主题、全文

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2