科技信息检索与利用2.ppt

上传人:wj 文档编号:16057276 上传时间:2023-07-10 格式:PPT 页数:88 大小:3.42MB
下载 相关 举报
科技信息检索与利用2.ppt_第1页
第1页 / 共88页
科技信息检索与利用2.ppt_第2页
第2页 / 共88页
科技信息检索与利用2.ppt_第3页
第3页 / 共88页
科技信息检索与利用2.ppt_第4页
第4页 / 共88页
科技信息检索与利用2.ppt_第5页
第5页 / 共88页
科技信息检索与利用2.ppt_第6页
第6页 / 共88页
科技信息检索与利用2.ppt_第7页
第7页 / 共88页
科技信息检索与利用2.ppt_第8页
第8页 / 共88页
科技信息检索与利用2.ppt_第9页
第9页 / 共88页
科技信息检索与利用2.ppt_第10页
第10页 / 共88页
科技信息检索与利用2.ppt_第11页
第11页 / 共88页
科技信息检索与利用2.ppt_第12页
第12页 / 共88页
科技信息检索与利用2.ppt_第13页
第13页 / 共88页
科技信息检索与利用2.ppt_第14页
第14页 / 共88页
科技信息检索与利用2.ppt_第15页
第15页 / 共88页
科技信息检索与利用2.ppt_第16页
第16页 / 共88页
科技信息检索与利用2.ppt_第17页
第17页 / 共88页
科技信息检索与利用2.ppt_第18页
第18页 / 共88页
科技信息检索与利用2.ppt_第19页
第19页 / 共88页
科技信息检索与利用2.ppt_第20页
第20页 / 共88页
亲,该文档总共88页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

科技信息检索与利用2.ppt

《科技信息检索与利用2.ppt》由会员分享,可在线阅读,更多相关《科技信息检索与利用2.ppt(88页珍藏版)》请在冰点文库上搜索。

科技信息检索与利用2.ppt

第章信息检索,本章要点:

文献信息检索的基本概念课题核心概念的分析与提取方法检索概念的同物异名和上下位扩展方法课题的学科分类方法文档、记录、字段的定义检索算符的概念和检索策略构成方法,2.1信息检索基础,信息检索的发展历程信息检索作为一个学科的历史追溯到20世纪中期。

其有代表者如Granfield所确立的标引语言及检索系统评价方案,Salton提出的矢量空间模型与文献聚类技术,Roberson及VanRijisbergen、SparckJones等人研制的概率模型,Smeaton在计算机语言学基础上的检索技术开发等的研究与试验,都对直至20世纪80年代末期文献检索领域的研究对象、原则和方法产生过重要影响。

它的发展经历了5个阶段:

第一阶段:

手工检索阶段。

发源于图书馆的参考咨询工作和文摘索引工作。

在这一阶段,信息检索逐渐形成一个独立的领域,走向专门化,纸本工具书是这一时期信息检索的主要工具。

第二阶段:

脱机批处理检索。

20世纪五六十年代计算机的诞生带来了信息检索的革命。

在这一时期,计算机还没有连接通信网络,也没有远程终端装置,主要是利用计算机进行现刊文献的定题检索和回溯性检索。

第三阶段:

联机检索阶段。

1965年以后,第三代集成电路计算机进入实用化阶段,存储介质发展为磁盘和磁盘机,存储容量大幅增加,数据库管理和通信技术都有深入发展,信息检索从脱机阶段进入联机信息检索时期。

1967年以后,许多联机系统相继出现。

比较有名的就是美国洛克希德公司的DIALOG系统和系统发展公司的ORBIT系统。

这一时期的信息检索实现了远程实时检索。

第四阶段:

光盘检索阶段。

20世纪80年代以来,一种新型的信息载体激光光盘在信息检索系统中得到越来越广泛的应用。

第五阶段:

网络化联机检索阶段。

20世纪90年代以来,以Internet为核心连接起来的全球计算机网络为人们跨越时空、行业、地域,快速、高效传递信息提供了国际化的知识信息平台,极大地提高了获取信息的主动性。

传统的“提问检索”模式已逐步被网络环境中“浏览查询”模式取代。

2.1.1信息检索的概念,广义的信息检索有两方面的含义:

一是将信息按照一定的方式组织和存储起来;二是根据用户的需要找出有关的信息资料的过程和技术,称为“信息的存储与检索”又叫信息的存取。

狭义的信息检索仅仅指从信息集合中找出所需要的信息的全过程。

信息检索原理信息检索原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出。

信息检索原理图,信息需求,信息,表达,标引,检索提问,信息标识,比较与匹配,评价与反馈,检索结果,1、信息的外部特征:

题名、责任者、出版机构、ISBN、专利号、标准号、报告号等,将其按一定的方法进行组织、排列。

形成检索途径。

2、信息的内容特征:

按信息的学科属性或主题按照一定的方法进行排列。

形成检索途径。

3、存储过程4、检索过程5、检索点:

也称检索入口,一般来说,设置的信息检索点主要有:

分类、主题、名称、著者、代码等。

2.1.信息检索的类型1、以检索内容区分1)文献检索:

凡以文献(包括文摘、题录或全文等)为检索对象的检索称为文献检索。

根据检索内容的不同可分为书目检索和全文检索。

文献检索一般是一种相关性检索,不直接解答用户所提出的技术问题,只提供与之相关的文献或文献线索。

检索工具一般利用书目、文摘、索引、题录及全文数据库等。

2)数据检索:

数据检索的对象是数值性数据。

3)事实检索:

是以从文献中抽取的事项做为检索内容的信息检索。

2、以检索方式区分1)手工检索2)计算机检索,2.1.3信息检索系统1.信息检索系统的类型目录题录文摘全文,信息检索系统的构成1、广义的信息检索系统的构成1)检索文档2)技术设备3)语言工具4)作用于系统的人,2、狭义的信息检索系统的组成从物理构成来说,包括计算机硬件、软件和数据库、通讯线路和检索终端五部分数据库的结构:

文档记录字段文档:

数据库中一部分记录的有序集合记录:

数据库的信息单元,每条记录描述了一个原始信息的外部特征和内部特征。

字段:

比记录更小的单位,是组成记录的数据项目。

2.1.4文献信息检索方法类型1、常规法:

利用检索工具,以主题、分类、著者等为检索入口检索所需文献的方法。

顺查法、逆查法、抽查法。

2、追溯法:

利用原始文献后面所附的参考文献和有关论著引文注释进行追踪检索的一种方法。

3、循环法:

是常规法与追溯法的结合,交替使用的检索方法,也叫综合法。

2.1.5文献信息的一般检索步骤,1.分析研究课题,明确检索要求搞清楚本课题属于什么学科,所需情报的文献类型及语种,查找文献的年代,所需文献的最佳篇数,允许支配的检索费用。

2.1.5文献信息的一般检索步骤,2.选择检索工具或检索系统按照课题的检索要求和目的,选择收录文献种类、专业覆盖面、年代跨度对口的数据库;当需要查找最新文献信息时,选择数据更新周期短的数据库;当还需要获取原文时,选取原文获取较容易的数据库;,2.1.5文献信息的一般检索步骤2.选择检索工具或检索系统,2.1.5文献信息的一般检索步骤2.数据库的选择自然科学常用的文献数据库,中文类自然科学常用数据库:

中国期刊网全文数据库,文理各科维普期刊网全文数据库,文理各科万方数据资源系统全文数据库,理工科超星读秀、方正Apabi数字图书馆、外文类自然科学常用数据库:

SpringerLink数据库EBSCO文摘/全文数据库,文科为主,2.1.5文献信息的一般检索步骤,3.确定检索途径4.记录和阅读文献线索5.索取原始文献,2.1.6检索效果评价1、检索效果的有效性评价信息检索的效果评价是指运用科学的方法,按照设定的指标体系,对信息检索效果进行评价的过程。

目前主要从三个方面进行评价。

1)查全率和查准率是由美国的佩里和肯特于20世纪50年代中期提出来的,后经过不断改进和完善,至今已成为评价检索效果最常用的两项关键指标。

确定查全率和查准率最常用的方法是有名的2-3表:

查全率指检出的相关文献量与检索系统中相关文献信息总量的比率,它反映出信息检索系统检出相关文献信息的能力。

查全率(R)=(检出相关文献信息量/检索系统中相关文献信息总量)100%=(a/a+c)100%,查准率是指检出相关文献信息量与检出文献信息总量的比率,它反映出信息检索系统的精确度,说明系统排除干扰,减少噪音的能力。

查准率(P)=(检出相关文献总量/检出文献信息总量)100%=(a/a+b)100%,2)漏检率与误检率漏检率指漏检相关文献信息量与检索系统中相关文献信息总量的比率,它与查全率相对应。

漏检率=(漏检相关文献信息量/检索系统中相关文献信息总量的比率)100%=(c/a+c)100%误检率是指误检(检出不相关)文献信息总量与检出文献信息总量的比率,它与查准率相对应。

误检率=(误检文献信息量/检出文献信息总量)100%=(b/a+b)100%,2、检索系统实用性评价。

包括系统对用户是否需要,是否实用,有多大实用效果,即检索的社会效果的评价。

3、检索费用效率评价,即检索的经济效果评价,包括检索系统完成检索服务的成本及时间消耗。

影响检索效果的因素1、标引的质量2、检索语言的性能3、检索途径的数量4、检索策略的优劣5、检索人员的素质,2.2检索概念的分析和检索语言的应用,2.2.1概念分析准备1课题分析方法探索研究型课题调查研究型课题面向应用型课题,2.课题背景知识的获取方法课题的背景知识包括课题研究的对象、研究对象所属的学科和主要涉及内容(包括研究对象、使用方法、主要研究单位和人员等)网上搜索引擎、专著、手册、百科全书等,2.2.2检索概念的切分、提取和扩展方法,.概念的切分。

以词为单位进行划分,切分需要彻底,做到“到词为止”,但又必须是表达一件事物的完整名称。

例如:

“计算机管理系统”应切分成“计算机、管理系统”,而不能切分成“计算、机、管理、系统”。

切分后,所要检索的课题就转换成词的集合,但必用的核心词往往很少,多数的是限定词。

.主要检索词、辅助检索词和禁用词。

主要检索词:

与课题所研究的对象、方法有关的特指性事物名词。

辅助检索词:

泛指性名词,它们只在检索结果过多需要限制时使用。

禁用词:

介词、连词等虚词。

.概念的扩展方法基于同一概念的检索词的扩展法

(1)寻找同一事物的学名和俗名、商品名和代号等如:

贸易与商业,便携式录音机和walkman,涉外与对外,刊物与杂志,

(2)寻找同一事物的简称、全称、音译和意译等如:

外语与外国语言,worldwideweb、WWW、互联网与因特网、科技与科学技术,培养与教育,(3)寻找同一事物名称的近义词和反义词如:

教学与培训、教育,研究与分析、比较、理论、变化,翻译与直译、意译,美术与艺术,英汉与汉英,否定与肯定(4)如果是英语,寻找同一事物名词的单复数、不同词性、英美语的不同形式如:

cheque与check,colour和color,stock和share等,基于内容分析的概念扩展法

(1)上位概念扩展法,分析检索对象的学科归属。

如:

英语与外语,美术与艺术,上海图书馆与公共图书馆,词法与语法,专利与知识产权、继承法与民法、唐诗与古诗、词法与语法等

(2)下位概念扩展法,又称概念分析的树形展开法。

如:

英语外贸应用文英汉科技翻译书信函电公文化学机械通信口译笔译,(3)隐含概念扩展法如:

“投资管理”的显见主题是“投资管理”,隐含主题还有“投资法规”、“投资法律”。

又如,“作家笔下的主人公特征比较”,隐含主题还有“文学作品”和“小说”。

基于检索结果的概念扩展法对初步检索结果进行分析,往往能够得到与课题相关的新的检索概念,将这些概念经过重新组合,就可以达到扩展检索结果的目的。

思考题,1、StudyonthemarketmanagementinChina中哪些词宜选做主要检索词,哪些词宜选做辅助检索词,哪些词属于禁用词?

2、就“外语”使用同物异名方法、上位概念方法和下位概念方法,各扩展一个检索词。

3、“大学语文课程现状调查与问题分析”检索词的选取。

2.2.3文献信息的内外部特征和检索语言的定义,.文献信息的内外部特征信息的外部特征:

题名、责任者、出版机构、ISBN、专利号、标准号、报告号等,将其按一定的方法进行组织、排列。

形成检索途径。

信息的内容特征:

按信息的学科属性或主题按照一定的方法进行排列。

形成检索途径。

.定义和类型信息检索语言是用来表达信息概念的一种人工语言,它是根据信息组织和检索的需要所编制的特殊标识。

检索语言由基本词汇和语法规则组成。

类型:

1、按结构原理划分:

等级体系分类法和组配分类法2、按包括的专业范围划分:

综合性、专业性3、按标识的组合使用方法划分:

先组式和后组式,4、按描述语言的选词特征来划分,可以分为单元词、叙词、关键词、主题词、代码、引证5、按规范形式来划分:

可分为规范检索语言和自然语言。

6、按描述文献的特征划分:

外部特征表标识和内容特征标识。

2.2.4分类检索语言分类检索语言又称分类法,是用分类号来表达信息中所含有的主题概念。

它一般包括类目表和分类规则。

我国近代三大分类法分别是:

中国图书馆分类法(简称中图法)、中国科学院图书馆图书分类法(简称科图法,主要在科学院系统使用)、中国人民大学图书馆图书分类法(简称人大法),中国图书馆分类法,中图法在结构上主要有类目表、标记符号、说明和注释、类目索引等四部分组成。

类目表是在基本大类的基础上,由基本大类、简表、详表、复分表四部分组成。

类目之间的关系有从属关系、并列关系、交替关系、相关关系四种。

中国图书馆图书分类法,1999年推出了第四版,共分大部类22个基本大类。

22个基本大类是在5在部类的基础上第一次划分得到的,称为一级类目,分别对应一个英文字母;从基本大类起,再连续划分3次,得到二级、三级、四级类目。

采用汉语拼音字母和数字相结合的方式对图书进行分类,是目前国内各公共图书馆和高校图书馆普遍使用的图书分类法,我馆藏书也是按照该分类法进行排架。

中图法简表,其中文学类部分类目展开情况如下:

I文学I2中国文学I24小说I247建国后作品I247.4章回小说I247.5新体长篇、中篇小说I247.7新体短篇小说I247.8故事、微型小说I25报告文学I3/7外国文学,分类标引方法:

崔文风著)心理与人生发展心理教子成长)心理与人生完善心理事事成功)心理与人生调节心理强身治病分别分入:

G78、B848.4和R395.6-49,其索书号分别是G78/CWF、B848.4/CWF和R395.6-49/CWF,2.2.5主题检索语言主题检索语言是以自然语言中语词文字为基础,以反映特定事物为中心,以主题词字顺为基本结构的一种检索语言。

将主题词作为信息主题标引和检索标识的编排方法称为主题法。

主题语言表达的概念比较准确,具有专指性,不同的专业领域或不同的数据库(一般为外文数据库)有自己的主题词表。

1、主题检索语言的主要类型主题检索语言根据其结构原理可分为:

标题词:

事先组配好的主题词,是一种先组式的语言。

单元词:

代表文献实质意义、可以独立存在的最小概念单元。

是一种后组式的语言。

叙词:

经规范化的可以独立表达主题概念的词语。

关键词:

直接使用的基本上不加规范的自然词语。

2、汉语主题词表:

也称为叙词表。

由主表、附表和辅助索引组成。

3、分类主题法检索语言4、自然语言,http:

/,2.3检索算符与检索策略,2.3.1检索算符检索运算符号,常用的有:

布尔逻辑算符、截词算符、位置算符、优先处理算符、字段限制、词组算符,1.布尔逻辑算符,逻辑或(OR)运算符(+)S11834companyS22022enterpriseS33647companyORenterprise使用于具有基本相同或近似概念的同义词、同族词之间现代汉语教学与写作现代汉语教学+现代汉语写作,enterprise,company,在布尔逻辑算法中,“AORB”或“A+B”表示查找出()。

A.含有A、B之一或同时包含AB两词的文献B.含有这两个词的文献集合C.含有检索词A而不含检索词B的文献D.含有检索词B而不含检索词A的文献。

1.布尔逻辑算符,与(AND)运算符(*)WTOChinaS112940WTOS22173ChinaS3842WTOANDChinaWTOANDChina使用于需要组配不同概念的检索词之间用汉语写作的藏族人汉语写作*藏族人,1.布尔逻辑算符,非(NOT)运算符()S1110PATENTS2325GERMANS3108PATENTNOTGERMANPATENTNOTGERMAN使用于需要从某个概念中剔除另一个概念的场合高中语文教学中学语文教学初中语文教学大学四级英语四级英语研究生英语国外汉语教学汉语教学中国,patent,German,2.优先处理算符,?

SAORB(集合号为S1)?

SCORD(集合号为S2)?

SS1ANDS2,?

S(AORB)AND(CORD),使用优先处理算符“()”,(信息检索OR文献检索)AND计算机,布尔逻辑符号如果混合运算,其顺序通常是NOT、AND、OR,3.截词算符(p.38),当某些英语检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词符,或称通配符扩展检索词。

无限截词:

以任意词尾变化为特征例如:

manag*work?

有限截词和屏蔽符:

以单个字母变化为特征。

例如:

m?

nmoderni?

ation,3.截词算符(p.38),一是截词符要紧接在词干后面,截词符和词干之间不能有空格。

二是避免将检索词的词干截得过短,一般应在三个字母以上。

三是截词应该使用得合理。

一般不可能出现词尾变化的单词,例如management,protection等,其后不必再使用截词。

四是从希望出现的单词中取尽可能多的公共字母作为词干,以提高查准率,比如在对manage,managing,managed,management和manager作截词运算时,词干应使用“manag*”,而不应使用“man*”。

4.位置算符,指定检索词之间的距离和出现的顺序的算符(W)with算符两侧的检索词次序不能颠倒,两词之间不允许有其他的词或字母,但允许有空格或“,”或“-”号。

如:

information(w)retrieval可检索出informationretrieval,information-retrieval等,(Wn或nW)nWords算符两侧的检索词之间最多允许插入n个词,两个检索词词序不允许颠倒。

如:

electronic(1W)resources,可检索出:

electronicresources,electronicinformationresources等等。

4.位置算符,(N)Near算符两侧的检索词必须紧密相连,即查找两个连在一起的单词,两词之间不允许有其他的词或字母,但词之间次序可以颠倒。

如:

Junior(N)high可检索出:

Juniorhigh,highJunior等,(Nn或nN)nNear算符两侧的检索词之间最多可插入n个单词,且这两个检索词的词序任意如:

information(3N)retrieval就是说两个单词之间最多可插入3个单词,(F)Field表示算符两侧的检索词必须出现在文献记录的同一个字段中,词序没有限制,中间可插入任意检索词。

(S)Sentence表示算符两侧的检索词必须出现在文献记录的同一个句子中,词序没有限制,中间可插入任意检索词。

思考:

检索表达式“information(3N)retrieval”,除空格和标点符号外,检出的结果有()个A.2B.4C.6D.8,5.字段限制,字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率的场合。

篇名作者刊名主题词,如在DIALOG系统中,前缀限制符有:

AU=限查特定作者JN=限查特定刊名LA=限查特定语种PN=限查特定专利号PY=限查特定年代,后缀限制符如:

/TI限在题目中查/AB限在文摘中查/DE限在叙词标引中查目前大多数检索系统都提供菜单式检索,只需选择字段,不需要记住及输入字段代码。

6词组算符,词组算符为“”“中国社会科学院社会学研究所”“三明学院物理与机电工程学院”“信息检索”,2.3.2检索策略构成和调整方法(p.40),1、概念组面和检索策略的构成方法运用各种方法得到的检索词,首先加以选择,注意选用本专业的专用术语,然后以概念为单位,分成不同的组面。

2、调整检索策略的方法输出篇数过多,原因可能是:

选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”使用错误。

输出篇数过少,原因可能是:

检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和字段算符使用的过多;使用过多的“与(AND)”算符。

需要扩大检索范围,提高检索结果查全率的,调整策略的方法有:

减少“与(AND)”算符,增加同义词或同族相关词用逻辑或(OR)将它们连接起来;在词干相同的单词后使用截词符(?

);去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。

如果需要缩小检索范围,提高检索结果查准率的,调整策略的方法有:

减少同义词或同族相关词;增加限制概念,用逻辑与(AND)将它们连接起来;使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家;使用适当的位置算符;使用“非(NOT)”算符,排除无关概念。

2.4课题概念分析和检索策略构成案例,2.4.1获取课题背景知识和归纳概念课题“经济一体化”1.网上搜索(百度百科),2.专著手册百科全书方正阿帕比:

输入“经济一体化”,中国大百科全书,期刊论文CNKI:

TI=“经济一体化”(在核心期刊中检索),4.课题概念的内涵归纳经济一体化是两个或两个以上的国家或地区按协定在生产、贸易或货币金融等领域实行长期、稳定的经济联合和政策协调,并逐步向统一的经济实体发展的过程。

它的基础是市场经济在所有成员体内的充分发展;核心是各成员体内部社会再生产过程的交叉渗透形成各成员体整体上的社会再生产;主要手段是生产、资本和交换的一体化;内容不仅涉及生产领域,还包括流通、金融、科技和文化领域;决定力量是市场机制;主导力量是各成员体的跨国公司;推动力量则是以信息技术为主导的技术进步;根源是各成员体博弈和磨合的制度创新。

2.4.2查找确定课题相关的主题词和分类号1.查找和确定相关的主题词2.查找和确定中图法分类号,2.4.3构建检索策略(全球经济一体化)1.主要概念的归纳2.检索策略的构建2.4.4案例分析,检索词:

经济一体化、全球扩展检索词:

经济合作、经济协作、国际、世界检索式:

(全球+国际+世界)*(经济一体化+经济合作+经济协作)+表示逻辑“或”,*表示逻辑“与”,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2