云南大学信息检索期末复习重点.docx
《云南大学信息检索期末复习重点.docx》由会员分享,可在线阅读,更多相关《云南大学信息检索期末复习重点.docx(16页珍藏版)》请在冰点文库上搜索。
云南大学信息检索期末复习重点
云南大学信息检索重点
第一章
一、检索策略
定义:
在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。
二、检全率与检准率
1.检全率及其影响:
检全率=(检出的相关信息数/信息库中相关信息总数)x100%
2.检准率及其影响:
检准率=(检出的相关信息数/检出的信息总数)x100%
影响检出文献的检索效果的质量。
三、检索模型
1.布尔检索模型
(1)定义:
布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。
(2)优点:
简单、易理解、易实现、能处理结构化提问
(3)缺点:
A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。
尤其是对复杂的检索课题,不易套用布尔检索模型。
B.易造成零输出或过量输出。
检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。
C.无差别的组配元,不能区分各组配元的重要程度。
D.匹配标准存在某些不合理的地方。
由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。
E.检索结果不能按照重要性排序输出。
2.向量检索模型
(1)定义:
向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。
(2)优点:
A.采用自动标引技术维文献提供标引词
B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。
C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。
D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。
E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。
(3)缺点:
A.如检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系
B.由于对任何一个提问都需要计算全部文献库中的每一篇文献,因此,计算量大、算法复杂度高。
C.由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。
3.概率检索模型
4.扩展布尔逻辑检索模型
5.相关反馈模型
四、信息检索的步骤
1.分析研究课题,明确查找要求
2.选择检索工具
3.制定检索策略、途径和方法
4.根据文献线索,查阅原始文献
五.信息检索的方法
1.布尔检索
与(AND*):
A*B,表明一篇文献中A和B同时存在
或(OR+):
A+B,表明一篇文献中A或B必须存在,也包含同时存在
非(NOT-):
A-B,表明一篇文献中包含A但不包含B
2.截词检索
(1)类型
A.按截断位置:
后截断、前截断、中截断;
B.截断的字符数量:
有限截断、无限截断。
(2)实施
A.后截断:
将截词符号放在字符串右方,保持词的前方一致。
computer*?
computerise/computers
B.前截断:
将截词放在字符串左方,保持词的后方一致。
*computer?
microcomputer/minicomputer
C.前后同时截断:
*computer*
D.中截断:
又称通用字符法,将截词放在检索词的中间,主要解决一个词的英、美不同拼法及有些词的单复数问题。
organiation?
organisation/organization
3.限制检索
4.全文位置检索
5.加权检索
6.多媒体检索
第二章
一.基本概念
1.书目数据库
(1)定义:
书目数据库是指存储某个领域的三次文献(如文摘、题录、目录等)书目数据的一类数据库,属于参考性数据库中的一种。
(2)类型
A.文摘、索引数据库:
与书本式文摘、索引相同,提供确定的文献来源信息
B.图书馆目录库
(3)特点
A.历史悠久,是机读数据库发展的先驱;
B.文献数据量大,连续性累积性强;文献类型齐全,语种多
C.使用上没有限制,开放性好
D.记录结构简单固定;
E.更新周期长,生产费用低;
F.数据及主题词规范性好,索引系统完备。
2.全文数据库:
其记录不仅包括原始文献的目录,而且收录了原始文献的全文。
3.一次文献:
一次文献又称为原始文献。
它指作者以本人的研究成果为基本素材创作而成的文献。
包括阅读性图书、期刊论文、科技报告、会议论文、专利说明书、技术标准、学术论文、实验记录、日记、备忘录、内部报告、技术档案、信件等公开或不公开发表的文献。
译文一般也归入一次文献。
4.二次文献:
指文献工作者对分散的、无组织的一次文献进行加工、提炼和浓缩之后得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性的文献。
一般包括:
目录、题名、文摘、索引。
5.三次文献:
是指对有关的一次文献和二次文献进行广泛深入的分析研究之后综合概括而成的产物。
如评述、综述、进展报告、百科辞典、名录、指南、手册。
6.核心期刊:
在某一学科中,少数期刊覆盖了该学科的大部分最有参考价值的文献,而多数期刊仅包含该学科的少量最有参考价值的文献,这少数期刊就是该学科的核心期刊。
7.灰色文献:
非正式出版物又叫零次文献、灰色文献,是指非正式出版物或非正式渠道交流的文献,未公开于社会,只是为个人或某一团体所用。
如手稿、私人笔记,信件等。
二.特种文献
1.定义
特种文献是一种介于图书与期刊之间的似书非书、似刊非刊的文献类型,通常在出版发行方面或获取途径方面比较特殊,因此称为特种文献。
它包括了除图书、期刊之外的所有其他类型的文献,如会议文献、学位论文、专利文献、标准文献、政府出版物、科技报告、产品样本和产品目录以及档案等。
2.类型
(1)会议文献
检索系统:
OCLC-Papers-First、OCLC-Proceeding
(2)学位论文
A.定义:
是高等学校或研究机构学生为获得某红学位二撰写的科学论文。
一般分为学士论文、硕士论文和博士论文。
B.检索系统:
ProQuestDigitalDiseertations;ProQuest博士论文全文数据库;中国学位论文数据库;中国优秀博硕士学位论文全文数据库;Calis高校学位论文库。
(3)专利文献
A.检索系统:
专利局;中国专利信息检索系统;世界知识产权组织网站专利数据库
B.专利分类法
a.原则:
行业分类原则:
根据发明的用途或应用领域分类;功能分类原则:
根据发明的“直接功能、效用或产品”分类,即以装置、物质或工艺的本质效用作为分类依据。
b.IPC:
InternationalClassficationofPatentforInvention《国际专利分类表》
原则:
功能分类与行业分类相结合,功能分类优先为原则
分类:
IPC按照五个等级分类,部(Section)、大类(Class)、小类(Subclass)、主组(MainGroup)、分组(Group),其中部是分类表中最高等级的分类层,按照领域不同,分为八个大部,用一位的英文字母标记,分别是A-H,分部不设类号。
因此,一个完整的IPC分类号由代表部、大类、小类、大组或小组的符号共同组成。
一个完整的IPC分类号:
F04D29/30
F(部)04(类)D(小类)29(主组)/30(分组)
(4)标准文献
A.定义:
指按规定程序制定,经公认权威机构批准的一整套在特定范围(领域)内必须执行的规格、规则、技术要求等规范性文献。
B.检索系统:
ISO;中国标准咨询网;万方数据资源系统中的标准库;NSSN
(5)科技报告:
科技报告是报道研究工作和开发调查工作的额成果或进展情况的一种文献类型。
美国四大报告(AD报告、PB报告、NASA报告和DOE报告)是世界上出版量最大、影响最广的科技报告。
第三章
一.百科全书
定义:
是荟萃人类一切门类或某一类完整知识,概要加以叙述并有序编排的工具书。
二.类书
1.定义:
是摘录、汇集多种文献中的原文,按类目或按韵部编排而成的工具书。
2.举例:
《太平御览》《永乐大典》《古今图书集成》
三.政书
1.定义:
是记述历代或某一朝代的典章制度的沿革及政治、经济、军事、文化制度等方面史料的工具书。
2.三通:
《通典》《通志》《文献通志》
3.十通:
《通典》《通志》《文献通考》《续通典》《续通志》《续文献通考》《清朝通典》《清朝文献通考》《清朝文献续通考》
四.类书和百科全书的区别
1.编撰方式的不同
类书是原始资料的汇集,百科全书是对已有知识的加工、整理和浓缩。
2.编排方式不同
类书是根据原始资料分类或音韵进行编排,百科全书则是以条目的字顺进行编排。
3.内容有别
类书一般侧重于文史资料,而百科全书以反应人类全部知识力为己任,对自然科学方面的知识更为重视。
4.后期工作不同
类书很少补充或者修订,百科全书有连续修订制度。
5.检索体系有无
百科全书有完备的索引体系,部分条目有参考书目,指引读者进一步阅读等,类书不具备。
五.工具书的类型、各自的特点、编排及功能
1.书目
(1)定义:
书目是揭示与记录一批相关文献,并按一定次序编排而成的检索工具
(2)编排
书目的正文;有的书目还有文献的提要或注释书目记录可根据不同的需要另多种编排方式;书目正文后一般附有辅助索引。
(3)功能
是进行出版物等级、统计报告、指导阅读和科学管理图书的工具。
也是“辨章学术、考镜源流”,鉴别图书真伪异同的重要工具。
2.索引
(1)定义:
又名“引得Index”,原有面检、备检、韵编之称。
索引是将书、刊或其他文献中重要的或有意义的信息摘录下俩,按一定方式顺次编排,并注明出处的检索工具。
(2)编排:
索引正文的结构是款目的有序编排;款目由标目、说明语和出处构成;款目依字顺、分类等方式编排;独立式索引多附有辅助索引。
(3)功能:
提供文摘索引;指引篇名、文句、语词与专题论述的出处;增加检索途径;比书目能进一步细致地揭示图书报刊的内容;可分析某一文献的主题内容以及关于某一学科或课题的最新观点和发展趋势。
从词句索引可研究作者写作分割,寻找特定语句出处,还可供寻章揽句、采撷辞藻。
3.文摘
(1)定义:
文摘是将文献的主要内容简要确切地加以描述,并注明出处,以一定的方法编排的检索工具。
(2)编排
每一款目分两部分,一部是对文献的内在特征和外在特征的描述,另一部分是关于文献内容的概括。
款目一般按分类编排;有些文摘还附有辅助索引。
(3)功能
通报最新的科学文献;深入揭示文献内容,吸引读者阅读原文;节约阅读时间;确定原文与检索需要的相关程度,决定取舍;帮助读者克服语言上的障碍。
六.常用排检法
1.字顺法:
形序法部首、笔画字顺法
号码法四角号码、中国字庋撷、起笔笔形法
音序法汉语拼音、注音字母法、韵部排列法
2.分类法学科系统排列法(中图法等)
事物性质排列法、四部分类法、自编分类体系
3.主题法索引
4.时序法年表、历表
5.地序法地方志、地图、地名录
七.图情专业期刊
中国图书馆学报、大学图书馆学报、图书情报知识、图书情报工作、图书馆杂志、图书馆建设、图书与情报、情报学报
八.图情常用资源
1.文摘数据库
LISA:
Library&informationscienceAbstracts图书馆与信息科学文摘
LISAT:
Library,informationscienceandtechnologyabstracts
2.全文数据库
LibraryLiteratureandinformationsciencefulltext
ACMdigitallibrary
ASISTdigitalLibrary’
Emerald
E线图情
国道特色数据库
3.网络资源
书社会:
图书馆和图书馆员的沙龙
ODLIS(图情在线辞典)
4.常用图情机构网站
IFLA
UNESCOLibrariesPortal
ALA
PLA
中国图书馆学会
第五章
一.文摘索引型检索工具/数据库
:
ScienceCitationIndex自然科学方面的《科学引文索引》
:
SocialScienceCitationIndex社会科学方面的《社会科学引文索引》
:
EngineeringIndex工程技术信息的《工程索引》
:
BIOSISPreview生物科学方面的《生物学文摘》
医学信息
:
ChemicalAbstracts《化学文摘》
6.中文社会科学:
《全国报刊索引》、《报刊资料索引》
二.电子期刊
1.英文电子期刊全文数据库:
SpringerLink;
2.中文电子期刊:
中国期刊全文数据库、中文科技期刊数据库、万方数字化期刊
三.电子图书和报纸
1.免费:
ProjectGutenberg古腾堡计划;e书时空
2.收费:
超星数字图书馆、书生之家、中国数字图书馆、方正Apabi数字图书馆
第六章
一.JSR指数
期刊引文分析报告是综合了解学术期刊的评价性工具,利用JSR了解学术期刊的重要性。
二.H指数
1.定义:
一个人在其所有学术文章中有N篇论文分别被引用了至少N次,他的H指数就是N。
2.确定某人的H指数
(1)将其发表的所有SCI论文按被引次数从高到低排列;
(2)从前往后查找排序后的列表,直到某篇论文的序号大于论文被引次数。
所得序号减一即为H指数。
三.CSCD
中国科学引文数据库,收录学科为理工农医,可查询各学科领域最重要的核心文献,共645种来源期刊。
可通过论文产出量和被引量的统计分析,进行科学评价。
四.WOK构成
:
ScienceCitationIndex科学引文索引
:
SocialScienceCitationIndex社会科学引文索引
&HCI:
Arts&HumanitiesCitationIndex艺术与人文科学索引
四.影响因子
1.计算方法
影响因子=期刊前两年发表论文在当年被引用的次数/该期刊前两年发表论文总数
2.查阅途径
(1)查询外文期刊影响因子,可使用外文数据库WebofScience中的JCR(JournalofReports),其中JCRScienceEdition用于查询自然科学类期刊,JCRSocialSciencesEdition用于查询人文社会科学类期刊。
(2)查询中文期刊的影响因子,可使用中国学术期刊(光盘版)电子杂志社和中国科学文献计量评价中心联合推出的《中国学术期刊综合引证报告》(万锦堃主编,科学出版社);CNKI的跨库检索页面点击“文献来源列表”即可看到权威的学术期刊影响因子列表
3.作用及意义
(1)是评价科技期刊的最重要的量化指标之一
(2)影响因子的高低较客观地反映了期刊和编辑吸引较好论文的能力
第十一章
一.OA:
OpenAccess。
文献的开放存取意味着用户通过互联网可以免费阅读、下载、复制、传播、打印和检索作品,或者实现对作品全文的链接、为作品建立索引和将作品作为数据传递给相应的软件,或者进行任何其他处于合法目的的使用。
二.EndNote:
EndNote是目前世界上广泛使用的个人文献信息管理软件之一,它的主要功能包括:
维护书目文献数据库;从其他数据库中下载书目文献;为写作产生合适的书目文献格式;帮助用户完成科技论文写作。
三.NoteExpress:
NoteExpress一款专业级别的文献检索与管理系统,其核心功能涵盖“知识采集,管理,应用,挖掘”的知识管理的所有环节,是学术研究,知识管理的必备工具,发表论文的好帮手。
四.书目管理软件
选择课题并形成检索策略?
一.分析研究课题,明确查找要求
1.明确检索目的
2.检索内容所涉及的学科主题淋雨
3.明确所需信息的数量、语种、年代范围、文献类型等。
二.选择检索工具(资源参考)
1.按检索内容的类型
一、图书/专着书目
(一)中文
(1)本校的图书馆联机公共检索目录
(2)中国国家图书馆联机公共检索目录
(3)中国国家书目(纸本)
(4)卓越亚马逊的图书搜索
(二)西文
(1)美国国会图书馆联机公共检索目录
(2)WorldCat---OCLC世界图书馆书目
(3)CALIS联合书目数据库
二、图书/专着电子版(查全文数据库)
(一)中文
(1)超星读秀
(2)北大方正
(3)书生之家
(4)CNKI工具书在线(查定义)
(5)辞海(纸本)
(6)中国大百科全书(纸本或电子本)
(二)西文
(1)Googlebook
(2)ProjectGutenberg
(3)Wikipedia
三、期刊论文
(一)中文
(1)万方数据资源系统
(2)中国期刊网全文数据库CNKI
(3)中文社会科学引文索引
(4)全国报刊索引(社科版)印刷本或网络版
(5)人民大学书报资料中心复印报刊资料索引总汇数据库
(6)中文科技期刊数据库(维普全文电子期刊)
(7)内部资料索引(纸本)
(二)西文
(1)AcademicSourcePremier---EBSCOhost学术期刊集成全文数据库
(2)AcademicResearchLibrary---UMI学术期刊图书馆数据库
(3)CALIS西文期刊目次数据库
(4)OCLCFirstSearch数据库系统
(5)Elsevier电子期刊
(6)Kluwer
(7)ERIC
(8)Google学术搜索
三、学位论文
(一)中文
(1)中国知网学位论文数据库
(2)CALIS高校学位论文库
(二)西文
(1)PQDT---Proquest博硕士论文数据库
(2)NDLTD
四、其他
(一)开放资源
(二)网络资源导航
(三)整合平台
2.按数据库类型(常用)
(1)书目数据库
A.本馆馆藏目录数据库
联合书目数据库
C.中国国家图书馆联机公共目录馆藏查询
D.超星数字图书馆;
(2)全文数据库
中文:
中国期刊全文数据库、中文科技期刊数据库、万方系统的数字化期刊全文数据库;人大复印资料全文数据库;
英文:
ProQuest博硕士论文全文数据库;Elsevier期刊数据库;
(3)事实型数据库
万方数据;
(4)数值型数据库
(5)多媒体数据库
三.制定检索策略、途径和方法
1.检索表达式
2.检索表达式的调整
(1)扩检
A.使用截词技术
B.用OR链接同义词、近义词
C.位置算符采用精度较低的方式:
从(w)到(n)到(s)
D.选择上位词、相关词、降低专指度
C.删去不重要的词,调节网罗度。
(2)缩检
限制检索词出现的字段
四.根据文献线索,查阅原始文献