信息组织期末复习资料.doc
《信息组织期末复习资料.doc》由会员分享,可在线阅读,更多相关《信息组织期末复习资料.doc(5页珍藏版)》请在冰点文库上搜索。
信息检索需求的多样化
(1)文献检索:
是以文献为检索对象的信息检索。
它为用户提供的是与用户的信息需求相关的文献信息,它的目的是相关文献的出处和收藏处所。
文献检索的结果是提供与课题相关的数篇文献的线索或原文,供用户参考.
(2)数据检索:
是以数值和图表形式表示的数据为检索对象的信息检索。
数据检索是一种确定性检索.(3)事实检索:
是以从文献中抽取的事项为检索内容的信息检索。
信息标引:
就是对信息内容进行分析并充分而有效地予以揭示。
揭示信息的内容是检索信息、利用信息的前提条件。
从学科属性揭示信息内容就是分类标引,从主题特征揭示信息内容就是主题标引。
准确标引信息要求准确的内容分析,否则就会出现错误标引。
信息系统组织:
信息通过特征描述和内容揭示,获得了表示信息的标识,但这只是针对某一文献和信息单元的,把这些信息有序地组织起来才完成了信息组织的过程,这个过程就是信息系统组织。
信息系统组织是把描述和标引的信息实体和信息记录组织成一个有序的系统。
一、信息组织方法:
(一)按组织对象分:
文献实体组织与信息内容组织
(二)按信息组织的层次分:
语法信息组织、语义信息组织与语用信息组织(三)常用信息组织方法:
1.分类组织法2.主题组织法3.集成组织法
三、信息组织手段1、人工组织2、自动组织
1、分类检索语言:
分类检索语言习惯简称分类语言或分类法,分类检索语言语族主要有三个语支,
即
(1)等级体系分类语言
(2)分析综合分类语言(3)半分析综合分类语言。
2、主题检索语言
(1)标引词语言
(2)单元词语言(3)叙词语言
检索语言词汇控制的意义:
检索语言构成材料就是词汇,把词汇按某种方式组织起来构成检索语言词典,它是标引和检索的工具。
检索语言的词汇控制又称规范化处理。
由于表述信息内容的词汇非常庞杂,日常的自然语言词汇并非都能准确表达信息的学科和主题内容。
自然语言缺点
(1)词汇的同义现象。
(2)词汇的多义现象。
(3)词汇语义不清或语义不确定。
(4)词量庞大(5)词间关系不明晰
在现行的一些检索系统中,也比较广泛地直接采用自然语言检索,它虽然节省了词汇控制的成本,但却是以牺牲检索效率为代价的。
因此,完全采用自然语言进行信息组织的系统并不是理想的检索系统。
即便是面对互联网急剧增长的信息资源,人们也越来越感到需要进行规范化控制。
由此有了规范化检索语言在网络信息组织中的应用研究,有了网络本体语言的开发。
网络信息组织从自由走向规范足以说明词汇控制的意义。
检索语言词汇控制的内容:
词汇控制的目的是为了使检索词符合唯一性、规律性、定型性、通用性和准确性。
为了达到这个目标,应该从以下几方面进行词汇控制。
(1)词量控制。
词量控制是指对收入词表的词汇进行压缩、精选,使之与所要标引的信息数量和检索要求相适应。
(2)词类控制。
自然语言词汇有多种类别,如名词、动词、形容词、副词、介词、叹词,还有大量的词组。
(3)词形控制。
词汇也存在不同的书面表达方式,如不同的次序、简繁体、单复数、不同拼写法,以及标点符号、字符、数字等,为了实现每个词词义和词性的唯一性,必须进行词形控制。
(4)词义控制。
检索语言中的每个词汇都只表示一个概念,即使检索语言词汇一般都比较精炼和简短,也会出现一词多义和同形异义现象。
因此,必要时在主题词或类目词后加限定词,加含义及范围注释,或附加简明定义等。
(5)词间关系控制。
在情报检索语言词典编制中,对词汇语义和词间关系必须控制,这是为了词典中每个词汇都有独立的语义,词间关系能形成一个语义网。
(6)专指度控制。
检索语言词汇的专指度是指其语义的内涵与外延与信息主题内容的切合程度。
信息检索系统由六个子系统构成:
(1)信息选择子系统
(2)标引子系统(3)词表子系统(4)检索子系统(5)用户与系统之间的交互子系统(6)匹配子系统即对信息标引与提问标引进行匹配的子系统。
从系统构成分析可见,检索语言和标引是系统的中心环节,它起着承上启下,连接用户与系统的关键作用。
概念之间的关系
(一)属种关系:
它是指一个概念的外延包含另一概念的全部外延,其中,外延大的概念叫属概念,外延小的概念叫种概念。
(二)同一关系:
它是指两概念在外延上完全重合。
(三)交叉关系:
即两种概念之间有且只有一部分外延是重合的。
概念逻辑方法
(一)概念的限定与概括
概念的限定是指通过增加概念的内涵以缩小概念的外延,即由属概念过渡到种概念的逻辑方法。
对一概念进行限定,从语言上说一般是增加限制词,如定语、状语等,例如,给“人”加上“大”就成为“大人”,增加的限制词应是恰当的,不能与原概念矛盾或重复。
概念的概括是与概念的限定相反的一种逻辑方法,它是通过减少概念的内涵从而扩大其外延,由外延较小的种概念过渡到属概念。
如把“先进工人”抽去“先进的”这一内涵就变成“工人”,再减去“从事工业生产的”这一内涵就变成“人”,这就是一个概括的过程。
概括的方法可以使我们的认识上升到一定高度,加深对事物本质的了解。
(二)概念的划分
概念的划分就是以事物的某种属性为分类标准,将一个属概念的外延分成若干个种概念的方法。
事物有各种各样的属性,根据不同的属性就可做不同的划分。
如按图书的文字可以把“图书”分为“中文图书”和“外文图书”,按图书的学科类别又可以划分成“自然科学图书”、“社会科学图书”等,按图书的装订形式还可以划分成“平装图书”、“精装图书”,等等。
概念的划分的基本规则是:
划分得到的子项的外延之和应当等于母项的外延,划分得到的各子项的外延必须互相排斥,每次划分应当使用同一标准进行,划分必须是按层次逐级进行。
分类检索的类型
分类检索的基本形式有三种,即浏览式检索、直接检索、浏览与直接相结合的检索
1、浏览检索:
就是按照信息系统的分类体系,以线性的方式沿着某一个起点,一层一层地在逐级查找,也就是知识树或知识地图浏览方式。
2、直接检索:
当信息被组织在数据库中后,某些对系统比较熟悉的用户,对需求明确的信息可以进行直接检索,即在系统中直接输入分类号、类名、关键词进行检索。
这种形式的检索往往还要借助于该系统所使用的分类法。
3、浏览与直接相结合的检索:
这种检索方式是电子分类法和网络信息分类系统特有的功能,就是在进行浏览式检索过程、在一个特定类目的限定下输入要检索信息的某些特征语词,以便迅速将该类信息定位;或者先输入信息的某个特征,初步判断、确定它的类属,在此基础进行浏览检索。
分类法的宏观结构一般包括
(1)编制说明
(2)基本类目表(3)分类法主表(4)辅助分类体系
(5)分类法附表(6)分类法索引(7)分类法使用手册与附录
分类法的微观结构一般包括
(1)分类号
(2)类名(3)类级(4)类目注释和参照
分类法编制的基本程序
(一)分类法的功能分析与定位
(二)系统用户需求(三)分类体系设计(四)分类标记设计(五)分类法结构设计(六)分类法主表设计(七)分类法辅助分类体系设计
(八)分类法辅助表设计(九)分类法索引设计(十)试标引与修订
按标记制度划分的分类标记
1.层累标记制2.顺序标记制3.混合标记制4.分面标记制5.回归标记制6.起讫标记制
扩展同级类编号法
编号的方法是:
某类的子类较多,本身的号码不敷使用,就借用相邻空余的同位类号,并将其扩展成与该子类相匹配的同级号码,为剩余的子类配号。
此种扩号法的特点是使同位类都有相同长度的号码。
子顺扩号法
当某类下同位类很多,但无须再进一步划分,且同位类有不可预见性时,可使用类名的首字母进行扩号,即类号+字母。
例如:
M675法国文学作品:
按作家分
M675B巴尔扎克作品
M675D狄更新作品
M675M莫泊桑作品
主题法的含义
所谓主题法,一般是指直接以表示文献主题的语词作标识,提供字顺检索途径,并主要采用参照系统揭示词间关系的标引和检索文献的方法。
它是分类法之外,另一种从内容角度标引和检索文献的主要方法。
从检索语言的角度来说,主题法也就是主题检索语言,或称主题语言,它是用自然语言语词或受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,主要用参照系统显示概念之间关系的检索语言。
按照表达主题概念的语词标识的构成原理和特征的不同,主题法一般分为标题法、单元词法、叙词法、关键词法。
关键词法:
是直接以文献中能够表达主题概念的关键词作标识的一种准主题法。
或者说,关键词法是由计算机或人工从文献中抽取关键词作标识,并按字顺排列,提供主题检索途径的方法。
所谓关键词,是出现在文献题名、文摘、正文中,能够表达文献主题,具有文献意义的语词。
关键词法作为主题法的一种,与标题法、叙词法相比,具有两个主要特点:
(1)关键词是自然语言的语词,一般不作规范化处理;
(2)一般不编制受控词表进行词汇控制,不显示词间关系,只是编制禁用词表来控制抽词。
概念组配是叙词法的基本原理
在叙词语言采用的多种原理方法中,概念组配是最基本的原理,它是决定叙词法特点和性能的根本因素。
1、概念组配与字面组配的区别
叙词法采用的是概念组配,而不是字面组配。
(1).概念组配与字面组配对词汇单位的要求不同。
概念组配要求以表达基本概念的语词为标识,用于概念组配的语词既可以是单词,也可以是词组。
字面组配只要求参与组配的词与组配构成的词在字面形式上的一致强调参与组配语词的单元性,因此,要求采用最小的词汇单位——单词,而不用词组。
(2).概念组配与字面组配的本质不同。
概念组配本质上是在概念分析的基础上进行概念综合,是符合概念逻辑的组配。
概念组配所表达的概念与参与组配的各方面所表达的概念在逻辑上是有联系的,往往表现为下位概念与上位概念的关系。
字面组配是利用构词法进行词的分拆和组合,它符合构词规律,但是不一定符合概念逻辑。
2、叙词的概念组配类型
(1)交叉组配交叉组配是指使用两个或多个具有交叉关系的叙词进行组配。
(2)方面组配方面组配,又称限定组配,是指将表示某一事物的叙词与表示事物方面的叙词进行组配。
(3)特称组配特称组配,是指用一个表示事物类称的属概念叙词与表达“种差”的叙词进行组配。
字顺表的微观结构
1、叙词款目和非正式叙词款目的著录项目2.叙词款目和非正式叙词款目的著录格式3.款目词的排列
词汇转换模式:
1、单向转换2、互逆转换3、多向转换4、中介转换
信息主题类型
1.依据主题结构区分
(1)单因素主题
(2)多因素主题(多因素主题又细分为复合主题与联结主题)
2.依据主题与检索系统专业性质相关程度区分
(1)专业主题
(2)相关主题(3)非专业主题
3.依据主题概括的文献内容范围区分
(1)整体主题
(2)局部主题
4.根据主题在文献中的重要程度区分
(1)主要主题
(2)次要主题
5.依据主题在文献中呈现的清晰程度区分
(1)显性主题
(2)隐性主题
主题分析的水平和要求
(一)主题分析的意义
1、主题分析的含义
主题分析,一般是指标引过程分析文献内容和提取主题概念的环节。
具体地说,主题分析是通过审读文献而了解文献内容及其表现形式,选择内容单元而确定文献主题数量,概括单元内容而形成主题概念,分析主题的结构和类型,并在必要时判断主题的学科专业属性的一种智力劳动。
2、主题分析的意义:
主题分析是标引的基础环节,正确的标引必须以正确的主题分析为前提。
主题分析的质量不仅直接影响标引的质量,而且在根本上影响着检索系统的检索效率。
主题分析的意义主要表现在以下四方面:
(1)主题分析是标引不可缺少的环节。
(2)从文献分析出的主题和主题因素的多少决定着文献标引深度。
(3)从文献中分析出的主题概念和主题因素的准确性是决定标引结果是否准确的首要环节。
(4)从文献中分析出的主题概念是否符合用户的需要,影响文献标引的有效性和文献的利用率。
(二)主题文献分析水平
1.宏观主题分析和微观主题分析2.概括式主题分析和描述式主题分析
(三)主题分析的质量要求
1.充分析出主题概念2.不过度析出主题概念
各种信息标引方式
(一)依揭示文献内容的方式分:
1.整体标引2.全面标引3.对口标引4.综合标引5.分散标引
6.分析标引7.互见标引
(二)依标引深度分:
1.深标引2.浅标引
(三)依所用标识与主题概念的对应性分:
1.专指标引2.组配标引3.上位标引4.依附标引5.暂定标引
(四)依组配标识是否组合分:
1.先组标引2.后组标引
(五)依所用标识受控程度分:
1.受控标引2.自由标引3.混合标引
(六)依标引的自动化程度分
1、人工标引
2、自动标引
3、半自动标引
(七依引的实施方式分
1、独立标引
2、统一标引
3、联合标引
4、在版标引。
自然语言区别于受控语言的特点
采用自然语言较之受控语言有如下优点:
(1)可以降低标引难度及成本,从而提高标引速度;
(2)采用用户熟悉的自然语言,符合用户检索习惯,减少了概念转换中产生的失真现象,专指度高;
(3)由于自然语言标引检索多采用自动处理方式,省略了编制词表和词汇的智力负担;
(4)自然语言标引检索人口词多,有利于提高查全率;
(5)操作简单方便,灵活,比较适合没有专业知识的广大网络用户使用。
几种常用的的机械分词方法如下:
(1)正向最大匹配法(由左到右的方向,MM法)
(2)逆向最大匹配法(由右到左的方向,RMM法)
(3)最少切分(使每一句中切出的词数最小)
(4)双向匹配法(MM+RMM)
(5)最大匹配法具体描述如下:
从标引文本中截取一定长字串与词典中的词相匹配。
匹配命中即记下该词,再以该词的长度将标引文本向后移动一个步长截取下一字串继续匹配。
若匹配失败则舍去某后端一字继续搜索,若到最后一字仍搜索无效,则从标引信息的该字后部或前部重新截取一定长字串进行搜索处理。
后控词表的编制特点及编制方法
特点:
(1)自然语言的新词汇、新概念是不断增加的,因此,后控词表的规模是不断扩增的;
(2)后控词表的主题分类体系是随着词量的增加而逐步细化的;
(3)后控词表由于不用于文献标引,故其分类体系改变灵活,可根据需要进行较大的调整,对检索系统不会引起重行标引的问题;
(4)后控词表可以以多种显示方式并用;
(5)后控词表也有必要增加入口词,部分入口词通过一定的积累使用可以改为正式检索标识。
(6)在后控词表中,标引词和非标引词应有所区别,如果两者相同,应并存。
(7)后控词表的词间关系,应由人工判别来确定,但可由计算机辅助,即利用字顺排列和词素轮排中的字面成簇原理,寻找出可能的词族。
后控词表的编制可以采取多种方式:
(1)在被抽出的词汇的基础上编制。
(2)将自然语言检索标识与某种词表或分类表对应
(3)在检索过程中,利用现成的、词量较多的一般词表作为后控制词表的代用品,或借用其他检索系统的后控制词表。
(4)利用计算机自学习机制将检索表达式中的用词加以积累,并定期加入到原始词表中,即后控制词表在用户使用过程过程中其数量是不断增长的。