0905《计算机信息检索》期末考试指导资料.docx
《0905《计算机信息检索》期末考试指导资料.docx》由会员分享,可在线阅读,更多相关《0905《计算机信息检索》期末考试指导资料.docx(19页珍藏版)》请在冰点文库上搜索。
0905《计算机信息检索》期末考试指导资料
0905《计算机信息检索》2015年06月期末考试指导
一、考试说明
(一)说明
满分为100分,考试时间为90分钟,考试形式为闭卷。
(二)题型及各题型所占分数和相应的答题技巧
1.单项选择(每题3分,共10题,总计30分)
答题技巧:
选择最正确的那个选项,可以考虑排除法等选择技巧。
2.简答题(每题7分,共14分)
答题技巧:
需要答出与问题相关的重要知识点(即讲义与课件中的知识点),如需要,可对相关内容展开阐述。
3.论述题(每题14分,总计56分)
答题技巧:
除了结合题目给出重要的知识点外,还要在此基础上对知识点加以扩展阐述。
回答要有条理,注意答案的完整性。
二、复习重点内容
第1章信息资源
1.信息资源的基本概念
信息资源就其本意来讲,就是信息的资源化或资源化的信息,是经过人类主观处理或加工的,能够传输或传播的,可以对社会生活发挥作用的信息。
关于与信息有关的几个概念
知识:
是指人类对客观事物规律性的认识,是人的大脑通过思维重新组合的系统化的信息集合。
文献:
是指记录知识的一切载体。
情报:
是指为一定目的而搜集和传递的有特定效用的知识。
2.信息资源的基本特征
信息资源的普遍性
信息资源的传递性
信息资源的时效性
信息资源的价值性
信息资源的可转换性
信息资源的可利用性
信息的共享性
3.电子信息资源的特征
电子信息资源是以数字化形式(即二进制代码0、1),把文字、图像、声音、动画等多种形式的信息存储在非印刷型介质上,以光信号、电信号的形式传输,并通过相应的计算机和其他外部设备再现出来的信息资源。
电子信息资源具有如下的特点:
存储形式多样化
资源数字化
交流程度高
提高了利用效率
内容丰富
载体容量大
4.电子信息资源的类型
(1)按照网络传输协议不同,可将电子信息资源分为:
Web信息资源
Telnet信息资源
FTP信息资源
用户服务组信息资源
Gopher信息资源
(2)按照存取方式的不同,可以将电子信息资源分为:
邮件型信息资源
电话型信息资源
揭示板型信息资源
广播型信息资源
图书馆型信息资源
书目型信息资源
交互型信息资源
(3)按照信息传播与交流过程,可将电子信息资源分为:
稳定的电子信息资源
不稳定的电子信息资源
(4)按照正式出版物类型的不同,可将电子信息资源分为:
电子图书(E-book,Electronicbook)
电子期刊(ElectronicJournal)
电子报纸(ElectronicNewspaper)
中国博客网电子期刊
北京青年报的电子报纸
第2章信息检索的基本原理
1.信息检索的基本原理
信息检索就是把检索提问与存储在检索工具中的标引、标识进行比较,两者一致或信息标引的标识包含着检索提问的标识。
则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。
实际上,信息检索的过程涉及信息的存储和检索两个过程。
信息检索可以按照广义和狭义的信息检索来进行定义:
广义的信息检索包括信息存储与查询两个部分:
信息的存储即对信息的本质特征与形式特征进行记录和描述的过程。
信息的查询则首先要将信息提问转换成信息系统可以接受的检索式,然后将检索提问与系统标识进行比较与匹配。
狭义的信息检索是以信息系统为基础的单纯的检索过程。
狭义的信息检索有许多类型
(1)按检索活动的执行主体可划分为手工检索和计算机检索
(2)按查询信息的特征可划分为全文检索、多媒体信息检索、事实检索、书目检索、图像检索、数据检索等。
2.信息检索语言的概念
信息检索语言是一种专门的人工书面语言,它是信息检索系统存储和检索所使用的共同语言。
3.信息检索语言的类型
检索语言是用于文献信息的存储和检索的。
对于非文献信息,若运用检索语言,就要把非文献信息转换为文献信息后再使用。
文献检索语言主要反映的是文献信息的内容特征和表象特征。
按检索语言的结构原理可以划分为分类语言、主题语言、代码语言。
分类语言,如中图分类法中,以大写字母表示一级类目,以数字表示二级和二级以下的类目。
二级类目,如工业技术(T)类下进行的细分,双字母。
分类语言还包括:
体系分类语言,组面分类语言,混合分类语言等。
主题语言:
一种规范化的自然语言,揭示文献信息的主题特征,用主题词汇表达各种概念, 并按字顺排列。
包括标题词语言,单元词语言,序词语言以及关键词语言等。
代码语言:
针对事物的某种特征,用代码加以标引和排列,如学科代码等。
按组配方式可划分为先组式检索语言和后组式检索语言。
4.信息检索的过程
(一)分析研究课题,明确查找要求。
(二)选择检索工具
(三)确定检索途径及检索方法
(四)查阅原始文献
信息检索的基本方法
(1)追溯法。
是利用文献末尾所附的参考文献进行追溯查找的方法。
(2)常用法。
是利用各种检索工具进行查找文献资源的方法。
(3)循环法。
是常用法和追溯法的结合,先利用检索工具查找出一批有用的文献,然后利用这些文献所附的参考文献进行追溯查找。
第3章计算机信息检索系统
1.计算机检索系统的组成
(一)计算机检索系统由以下几部分组成:
1)信息源
信息源是计算机检索系统信息或数据的来源。
信息检索系统中的数据主要来自各种公开文献。
2)信息组织管理 信息组织管理关键要注意信息标引的方法、组织方式、更新周期这几方面。
3)系统功能
信息检索系统的功能取决于系统所能提供的检索途径、检索方式和检索方法。
4)用户接口
用户结构主要研究用户模型、信息显示、命令语言、反馈机制这几点
5)系统支持技术
信息技术支持关系系统及其软、硬件平台的通用性、兼容性、可靠性和稳定性。
(二)计算机信息检索系统的基本结构
1)硬件部分:
以计算机主机为中心的一系列机器设备
2)软件部分:
信息检索系统中的有关程序和各种文件资料的总称。
3)数据库:
将数据按一定格式存储在计算机内的数据的仓库,即存储在计算机内的相关数据的集合。
2.计算机信息检索系统的工作流程与功能
(1)输入环节
针对系统建设的目标,搜集和选择特定范围内的信息资源;把收集的信息资源按照所规定的格式进行登载与记录。
(2)处理环节
处理经过选择的数据和信息。
(3)存储环节
存储子系统的功能是将加工处理后的信息,按照某种规则和程序聚积在存储载体上,构成可检索的文档。
存储的对象由三个方面的内容构成:
计算机需要执行的各种程序、数据和文档。
(4)传输环节
传输子系统的功能主要是通过计算机与通信线路的连接,完成信息编码的传递、转接、接收与处理等工作。
(5)输出环节
根据用户需求,输出各类有关信息。
(6)控制环节
控制子系统的功能是根据存取系统内部状态和外部环境的变化,进行管理与调节,来保证系统的有效输入、有效存储、有效输出等环节的协调运行。
对信息系统进行控制的方式主要有三种,即:
集中控制、分散控制和多层控制。
3.五种联机检索的检索策略
(1)最专指面优先(mostspecificfacetfirst)
(2)最低登录量的面优先(lowestpostingfacetfirst),其中登录量是指索引词在标引中的使用次数。
(3)积木型(build-block),形成若干个概念面,分别进行检索。
(4)引文珠形增长(citationpearl-growing)指的是依据一两篇最专指面文献逐步扩展,越找越多。
(5)逐次分馏(successivefractions),指的是确定一个较大的初始信息集合,再慢慢提高检索的专指度。
第4章联机检索系统
1.联机检索系统的基本结构
联机存取系统由用户检索终端、通信网络、联机存取中心等三个部分组成。
1)联机存取中心包括中央计算机(服务器)及其外部设备、数据库检索与管理软件、联机数据库;
2)通信网络,联机存取系统的通信网络是指通信子网通过分组交换技术,来完成用户联机检索终端和联机存取中心之间的数据传输。
3)用户检索终端及用户接口软件
用户检索终端是每个联机信息检索用户必需的设备,用户通过接口软件发送请求和接受结果。
2.国外主要联机检索系统
(1)DIALOG系统数据库
DIALOG系统数据库是目前世界上规模最大的、检索功能最完善、用户总数最多的联机存取系统。
它拥有各种数据库600多个,记录量超过3亿条,为全球100多个国家和地区的15万用户提供各种类型的联机存取服务。
DIALOG拥有大量的检索符号和完备的索引系统,能够进行广度和深度检索。
(2)OCLC系统数据库
OCLC(OnlineComputerLibraryCenter),即联机计算机图书中心,OCLC创建于1967年,是世界上最大的文献信息服务机构之一。
使用OCLC产品和服务的用户已有70多个国家和地区的38000多个图书馆和教育科研机构。
3.光盘检索的原理和特点
光盘的工作原理:
用激光读写信息
光盘检索具有以下特点:
检索速度快、检索效果好、检索成本低、安全性能高。
4.国内主要光盘数据库检索系统
(1)《中国学术期刊(光盘版)》的全文检索管理系统(简称CAJ)有检索网站版、专业版、普通版三种类型。
其基本检索功能包括:
全文检索,篇名检索,作者检索,机构检索,关键词检索,摘要检索,引文检索,基金检索,分类检索,二次检索和位置检索。
高级检索功能包括:
组合检索,检索表达式检索,词频检索。
输出功能:
提供中文、英文、中英文对照3种显示方式,其输出方式如下:
输出题录,输出题录摘要,网上浏览全文,下载全文,打印全文,摘录功能。
辅助功能:
检索词索引,保存检索结果,保存检索表达式,取出检索表达式,设定检索结果顺序。
(2)《中文科技期刊》光盘数据库
收录了国内出版的中文科技期刊6000多种(包括部分港台期刊),数据每半年更新一次,内容涉及16个专业大类。
(3)《中国人民大学报刊复印资料索引》光盘数据库
由中国人民大学书报资料中心编选的,因其覆盖面广,信息量大,分类科学,筛选严谨,结构合理完备,成为国内最有权威的具有大型、集中、系统、连续和灵活五大特点的社会科学、人文科学专题文献资料库。
1995年开始发行光盘版。
5.国外著名光盘数据库系统
(1)SPIRS检索系统与GREADLINE数据库
1984年美国银盘公司开发了SilverPlatterInformationRetrievalSystem(SPIRS)光盘存取系统。
银盘公司出版的光盘数据库范围涉及社会科学、人文科学、医学与生命科学、科学技术、综合参考、商业、健康与卫生、产品与服务指南等领域。
(2)ProQuest检索系统与INSPEC光盘数据库
ProQuest是由UMI公司开发的信息存取系统。
UMI公司生产多种光盘数据库,尽管内容、形式各异,但其检索方法、记录格式等基本相同,所采用的检索系统也都是ProQuest。
INSPEC数据库由UMI公司制作。
收录了约42000种期刊、2000多个会议录及大量书籍、技术报告及学位论文等书目资料。
第5章网络信息资源
1.网络信息组织的方式
1)文件方式:
网络信息系统的最基本方式,可以分为三种形式:
顺排文档,倒排文档,索引文档。
具有简单、方便的特点,但容易增加网络负载。
2)数据库方式:
以字段为最小存储单位,可以降低网络传输负载。
重复的数据较少,以最优的方式为用户服务,安全性高,操作方便。
3)主题树方式:
按照一定的主题组织和存放,系统性很强,可扩充性好。
但不适应于大型的综合性信息系统,一般用于专业性、示范性数据。
4)超媒体方式:
超文本与多媒体技术的结合,是网络发展的新趋势。
但容易导致用户迷失。
5)元数据方式:
meta-data,关于数据的数据,即对数据信息所进行的描述。
6)网络信息系统新的重要组织方式。
可以为各种信息资源提供规范的描述语言,便于用户了解和共享网络信息。
2.网络信息资源的特征
以网络为传播媒体;
数量巨大,增长迅速;
信息共享程度高;
传播方式具有多样性、交互性;
以多媒体为内容特征;
使用成本低;
动态性强,管理难度较大;
3.网络信息检索的特征
存取范围覆盖Internet上的几乎所有资源;
传统检索方法与全新检索技术相结合;
用户界面友好且操作方便;
具备良好的导航和编辑功能;
网络透明度高;
4.网络信息检索的方法
信息检索建立在信息的存储和有序化基础之上,包括两方面内容:
前期数据准备(信息的标引),后期用户检索。
常用的检索方法包括:
浏览
通过资源指南来查找相应的信息
利用网络信息检索工具
使用检索软件
充分利用E-mail获取信息资源
5.搜索引擎的构成及其工作原理
搜索引擎的构成包括:
搜索器、索引器、检索器、用户接口
其工作原理是:
由搜索器,即网络机器人从Internet上收集各信息站点的摘要信息;
由索引器对该网页上的某些字或全部字作上索引,建立本地数据库;
用户在检索时,通过搜索引擎的用户接口访问摘要信息数据库;
检索器根据用户的查询条件快速检出文档,并对将要输出的结果进行排序和相关性处理;最后再通过用户接口将检索结果反馈给用户。
6.搜索引擎的功能
收集信息建立索引数据库,并自动跟踪信息源的变动,不断更新索引记录,定期维护数据库。
提供网络的信息导航与检索服务。
7.搜索引擎的分类
根据信息覆盖范围及适用用户群,搜索引擎可以划分为综合性搜索引擎和专用性搜索引擎两种类型。
根据信息检索方式的不同,搜索引擎可以划分为分类搜索引擎和关键词搜索引擎两种类型。
集成搜索引擎,也称为元搜索引擎,是一种建立在普通搜索引擎基础之上的搜索引擎。
重点在于处理检索结果,改进用户界面,用不同的方法过滤其它搜索引擎的结果,去除重复性的信息。
根据检索内容的不同,搜索引擎还可以分为普通搜索引擎、学术搜索引擎等。
8.搜索引擎在使用中的缺陷
数据量方面:
索引能力越来越落后于网络的快速增长速度,最好的搜索引擎也只能搜索到三分之一的网页信息。
内容相关性的评定方面:
难以判断多义词的具体含义,网络信息太多,查准和排序难度较大。
实效性方面:
更新数据的周期要花费较长的时间。
个性化与智能化方面:
智能技术很难得到应用。
9.万维网搜索引擎
(一)Google()
Google的核心技术:
PageRank(TM)
Google使用一组独特的硬件和软件,制造出了一部超高速搜索引擎。
Google的检索方法:
简单检索、词组检索、高级检索
Google的特殊功能:
图像搜索、信息挖掘、手气不错、网页快照、类似网页、按链接搜索、指定网域、语句搜索
(二)Yahoo!
()
Yahoo!
是世界上最早的搜索引擎之一。
它拥有第一流的Web目录和最佳的新闻链接以及许多附加服务。
Yahoo!
支持简单检索和词组检索,具有良好的性能。
(三)Ask()
Ask是以实现自然语言检索为特色的全文搜索引擎
Ask的搜索功能包括:
支持简单检索、支持词组检索、支持高级检索。
Ask支持自然语言检索的实现方式是支持自然语言提问。
(四)XX()
全球最大的中文搜索引擎。
XX商业运作的特色:
支持限制地区搜索;支持每日最高消费额控制;自动竞价功能;关键词分组管理,排名提醒等。
10.元搜索引擎的特征和评价标准
(一)元搜索引擎的基本特征
在多个搜索引擎中搜索,使用户在尽可能短的时间内得到更多的结果。
元搜索引擎在检索的精度、检索的范围、检索功能等方面仍存在许多局限性。
(二)元搜索引擎的评价标准
目前,对元搜索引擎的评价主要使用的是以下几个指标:
(1)、对检索语法的支持;
(2)、网络资源的覆盖;
(3)、对检索结果的处理。
(三)元搜索引擎的使用方法
基于Web的元搜索引擎建立在一个有网址的页面上,用户可以连接到任何有Internet的地方调用。
另外一类元搜索引擎是一种终端搜索引擎软件,下载安装后可直接在用户计算机上运行。
第6章数字图书馆
1.数字图书馆的特点
信息资源数字化信息传递网络化信息提供知识化信息服务增值化
2.数字图书馆的信息组织方式和元数据
(1)元数据是描述信息资源或数据本身特征和属性的数据,是用来规定数字化信息组织的一种数据结构标准,是数字图书馆的基本信息组织方式。
元数据具有定位(Location)、发现(Discovery)、评价(Evaluation)、选择(Selection)等几种功能。
(2)元数据的几种格式
DC(DublinCore)元数据RDF(ResourceDescriptionFramework)元数据XML(XtensibleMarkupLanguage)元数据
3.数字图书馆是图书馆未来的发展方向:
数字图书馆使得信息实体虚拟化,信息资源数字化,信息传递网络化,信息利用的共享,信息提供知识化。
4.数字图书馆的应用
(1)学术交流电子誉印本(E-print),可以克服学术信息滞后的缺陷。
中国科学院信息技术研究所与国家科技文献图书馆中心联合建设了中国誉印本服务系统。
该系统由国内誉印本服务子系统和国外誉印本门户服务子系统构成,实现了对全球誉印本系统的一站式检索。
(2)电子商务狭义的电子商务指通过网络进行交易。
广义的电子商务则指通过internet最大程度的满足客户的需求。
数字图书馆的建设对电子商务的发展有巨大的促进作用。
数字图书馆电子商务是当前国际电子商务发展的前沿课题。
(3)远程教育通过数字图书馆,可以开展主动的、灵活的、开放的学习。
(4)电子出版电子出版是有关电子出版物的编辑、制作、销售和传播的新形式,可以分为光盘出版物和网络出版物两种形式。
网络出版是数字图书馆应用的重要方面:
网络出版的电子图书是数字图书馆资源的重要来源之一;网络出版的标准化也是建设数字图书馆的重要前提之一。
1.研究生考试的信息资源
公开信息:
国家的考研政策、招生单位的特殊规定、专业目录、各单位招生简章、考研辅导机构的辅导信息等。
半公开信息:
不对外公开宣布但又不需保密的信息。
2.网络学术信息检索的策略
分析检索课题,明确检索要求,选择检索工具,确定检索途径,确定检索词,依据结果不断调整检索策略。
第7章网络信息检索实例
1.利用Google检索课题资料
(1)用搜索引擎来查询资料时,要根据查询主题来选择检索词。
(2)采用修正关键词的办法,即在原来的检索词基础上加上一个词。
2.《我国城镇居民的收入分配问题研究》课题信息检索为例
(1)经济类图书检索--中外文(电子版)
(2)经济类期刊获取--中外文(电子版)
(3)经济类会议文献获取(电子版)
(4)统计数据获取(电子版)
(5)其他经济类资源获取
(6)经济类学位论文获取(印刷版、电子版)
第8章信息素质教育与计算机信息检索
1.信息素质的主要内容
(1)informationliteracy:
信息素质、信息素养,能够判断什么时候需要信息,并懂得如何去获取信息,如何去评价和有效利用所需要的信息。
(2)信息素质是一种基本能力,是信息社会对人才能力的要求,信息检索是科技人员必备的基本技能,科学研究的先期工作,自身知识更新的一种手段。
(3)信息素质是一种综合能力,信息素质包括广泛的概念。
信息素质是一种信息能力,是一种了解、搜集、评价和利用信息的知识结构。
美国教育技术CEO论坛提出21世纪的能力素质包括:
基本学习技能(指读、写、算);信息素质;创新思维能力;人际交往与合作精神;实践能力。
2.信息素质教育体系的层次结构
根据不同对象和需要,划分为多个层次,根据不同层次和不同学科的教学目标来安排教学内容。
第一层是基础教育。
包括基础图书馆应用技能:
图书馆的布局、馆藏和服务、联机目录使用等;基础信息技术应用技能:
网络工具与等常用软件的使用,包括E-mail、网络浏览器、搜索引擎等。
对象是低年级学生。
第二层是通用信息素质教育,涉及学术与日常生活问题信息的检索、评价能力。
了解不同信息源的特点,根据需求选择恰当的信息源,使用检索方法及策略,对获得的信息做出评价,通过交流信息、组织与综合信息完成具体任务,懂得如何合法地检索与利用信息。
适用于本科生。
第三层是专业信息素质教育,基于学科的专门信息素质。
了解本学科信息的范畴、类型、常用的信息资源,对本学科文献的内容做出有效的评价并对其中的举证做出判断,能够完成本学科学术论文的写作等。
对象是高年级学生和研究生。
第四层,是信息素质教育体系的最高层,是综合信息素质。
3、重点习题(答案仅供参考)
(一)选择题
1.知识是:
()
A.是与物质和能量相并列的三大要素之一
B.是指记录知识的一切载体
C.比信息更广的概念
D.人类对客观事物规律性的认识,是人的大脑通过思维重新组合的系统化的信息集合
2.因特网使用的远程登录协议的英文缩写是:
(C)
A.HttpB.FTPC.TelnetD.TCP/IP
3.信息检索语言是:
()
A.一种专门的人工书面语言B.一种机器语言
C.一种数据库语言D.一种编程语言
4.提供社会科学信息资源的检索工具是:
(C)
A.Medline数据库B.ERICC.SOSIGD.Archie
5.不属于联机存取系统组成部分的是:
()
A.用户检索终端B.通信网络C.数据库供应商D.联机存取中心
6.基于文本方式检索的图像检索特征是:
(C)
A.颜色B.纹理C.作者D.形状
7.