信息的检索第三章信息的著录和标引.docx

上传人:b****4 文档编号:5426543 上传时间:2023-05-08 格式:DOCX 页数:14 大小:24.94KB
下载 相关 举报
信息的检索第三章信息的著录和标引.docx_第1页
第1页 / 共14页
信息的检索第三章信息的著录和标引.docx_第2页
第2页 / 共14页
信息的检索第三章信息的著录和标引.docx_第3页
第3页 / 共14页
信息的检索第三章信息的著录和标引.docx_第4页
第4页 / 共14页
信息的检索第三章信息的著录和标引.docx_第5页
第5页 / 共14页
信息的检索第三章信息的著录和标引.docx_第6页
第6页 / 共14页
信息的检索第三章信息的著录和标引.docx_第7页
第7页 / 共14页
信息的检索第三章信息的著录和标引.docx_第8页
第8页 / 共14页
信息的检索第三章信息的著录和标引.docx_第9页
第9页 / 共14页
信息的检索第三章信息的著录和标引.docx_第10页
第10页 / 共14页
信息的检索第三章信息的著录和标引.docx_第11页
第11页 / 共14页
信息的检索第三章信息的著录和标引.docx_第12页
第12页 / 共14页
信息的检索第三章信息的著录和标引.docx_第13页
第13页 / 共14页
信息的检索第三章信息的著录和标引.docx_第14页
第14页 / 共14页
亲,该文档总共14页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

信息的检索第三章信息的著录和标引.docx

《信息的检索第三章信息的著录和标引.docx》由会员分享,可在线阅读,更多相关《信息的检索第三章信息的著录和标引.docx(14页珍藏版)》请在冰点文库上搜索。

信息的检索第三章信息的著录和标引.docx

信息的检索第三章信息的著录和标引

实用标准文案

第三章信息著录和标引

信息著录的含义和标准3.1信息著录的含义一、信息著录:

简称著录,指在组织检索系统时对文献内容和形式特征进行选择和记录的过程。

著录对象是信息,著录结果是款目或记录。

款目:

指依据一定的标准方法,对一种文献或信息源的内容价值物质形态进行描述而形成的一条记录。

款目由一条条著录项目组成。

著录项目:

用于揭示文献内容和形式特征的记录事项。

信息著录的基本要求:

①准确性。

要求著录结果准确全面客观的揭示文献或其它信息源的内容特征或形式特征②规范化。

要求信息著录坚持标准化原则,按照统一的著录项目,著录格式,标识符号进行著录。

信息著录的作用二、1、揭示功能:

信息著录主要反映的是文献本身的特征,通过对文献全面系统的分析,揭示出其内容特征和形式特征,将其浓缩于只言片语中,从而表达文献的基本信息。

2、组织功能:

信息著录后形成的款目或记录,是编制目录的基础,也是组织数据库数据的基本单元。

文献编目包括信息著录和目录组织两步。

信息著录是对文献内容特征形式特征进行选择记录后形成款目或记录。

目录组织是将这些款目或记录按照一定组织规则编排在一起最终形成检索工具或数据库。

3、检索功能:

存储是检索的第一个阶段,即将表达文献特征的有检索意义的标识通过记录组织成手工检索工具或计算机数据库,而表达文献特征的标识需要通过著录和标引来完成。

作为信息著录结果的款目或记录,记载了表达文献特征的各种标识。

精彩文档.

实用标准文案

信息著录的标准三、《文献著录总则》旨在根据各种类型文献的共同特点,确定文献著录原则、内容、标识符号、格式等的统一规定。

具有指导作用为信息著录提供原则性框架,并不作为文献著录的直接依据。

1、著录项目:

①题名与责任者项②版本项③文献特殊细节项④出版发行项⑤载体形态项⑥丛编项⑦附注项⑧文献标准编号及有关记载项⑨提要项

2、著录级次:

著录文献的详简程度,分为三级:

①简要级次,款目仅著录主要项目②基本级次,著录主要项目同时还著录部分选择项目③详细级次,著录全部主要项目和全部选择项目。

3、著录格式:

款目中各个著录项目的排列次序和表达方式。

分为卡片式款目著录格式和书本式款目著录格式。

目前,信息机构中并存着两种目录,一种是卡片式目录,一种是机读目录。

机读目录与元数据3.2机读目录一、机读目录(MARC):

机器可读目录的简称,来自英文machine-readablecatalogue的简称,是利用计算机识读和处理的目录。

CNMARC:

按照UNIMARC格式设计原则制定,并结合了汉字的特点,标识系统和数据代码规定比较详细,目前广泛应用于计算机编目。

一条CNMARC记录由记录头标区(包括的数据有记录类型,书目级别,记录的完备精彩文档.

实用标准文案

程度,记录是否遵照国际标准书目著录规则等),地址目次区(记录关于数据字段区记录情况的有关数据),数据字段区(由一些可变长数据组成,有十个功能块,0-标识信息块,1-编码信息块,2-著录信息块,3-附注项,4-款目连接块,5-相关题名块,6-主题分析块,7-知识责任者块,8-国际使用块,9-国内使用块),记录分隔符组成。

元数据二、元数据:

metadata,关于数据的数据。

在互联网中,元数据是指描述任何互联网数据和资源,促进互联网信息资源组织和发现的数据,以协助对网络资源的识别、描述、位置指示。

元数据的作用:

1、定位和检索:

借助于元数据,人们可以准确地检索和确认所需的资源。

2、著录和描述:

为了提高查全率和查准率,需要对网络资源的数据单元进行详细的著录和描述,描述数据单元的元数据叫做元数据元素。

3、资源管理:

利用元数据全面描述网络资源,不仅有利于检索,同时也有利于实现对资源安全有效的管理。

4、资源保护与长期保存:

利用元数据全面描述网络资源,不仅有利于实现管理和查询,还有助于网络资源的保护和长期保存。

都柏林核心元数据集:

一种跨领域的信息资源描述标准。

其对应用的资源类型没有根本性的限制。

共包括15个元素:

①题名(title)②创作者(creator)③主题及关键词(subject

andkeywords)④描述(description)⑤出版者(publisher)⑥其他贡献者(contributor)⑦时间(date)⑧类型(type)⑨格式(format)⑩标识(identifier)⑾来源(source)⑿语言(language)⒀关联(relation)⒁范围(coverage)⒂版权精彩文档.

实用标准文案

(right)这十五个元素都是可选择可重复可扩展的。

目前许多国家部门将都柏林核心元数据集作为一项基础标准。

都柏林核心元数据和机读目录的比较三、都:

①简单②灵活③具有语义互操作性④可扩展性,有利于网络信息资源描述

机:

①揭示内容深入详尽②在信息存储和检索领域应用历史悠久,是一种国际性的书目著录标准

相同:

①两者都是元数据②在著录文献的相关信息上都是数据的数据③目的:

将文献的相关信息格式化④用来描述信息资源的主题内容特征,并通过所描述的特征提供检索的依据

不同:

1、著录对象不同:

都的著录对象是网络资源或数据资源,其设计原则有可选择性可重复性可扩展性。

机比较适合传统出版物、缩微制品、数据库等,适用范围主要限于图书情报机构和网上公共查询目录

2、数据形式不同:

都包括15个元素,在应用中可选择可重复可扩展,限定词与元素之间关系灵活,结构简单灵巧。

机由记录头标区、地址目次区、数据字段区、分隔符组成,结构严谨复杂。

3、著录主体不同:

都著录简单明了,创建者和提供者无需培训即可自己进行资源描述。

机著录格式复杂内容严格,对使用者要求高,只有专业编目人员才能使用。

4、著录详简程度不同:

都德著录比较简单,只有15个元素,在著录过程中可选择可重复课扩展顺序可任意编排。

机著录详尽细致,有严格的著录规则。

5、标识方法不同:

都直接采用单词或词组进行标识,表达直观语义明确。

机字段用3位阿拉伯数字标识,子字段用1位英文字母或阿拉伯数字标识,不具备语义。

精彩文档.

实用标准文案

信息标引的含义和步骤3.3信息标引的含义一、信息标引:

在分析文献内容的基础上,用某种检索语言将文献主题以及其他有检索意义的特征标识出来,是文献存储与检索依据的一种文献处理过程。

标引是文献存入检索系统的依据,又是从检索系统中查出文献的依据。

信息标引的质量控制二、影响信息标引质量的因素很多,包括技术因素和管理因素。

1、标引深度:

①即标引的全面性,指把一篇文献所论述的各个主题内容提炼出来,给出检索词并对其进行标引的完善程度,通常指一篇文献被赋予主题词的平均个数。

②一般不超过10个主题词。

该标准是从揭示文献主题内容的广度来衡量标引质量的。

③主题标引中,不能仅从字面进行拆分组合,要通过阅读全文确定文献的显性主题和隐形主题。

2、专指度:

检索标识表达信息内容的精确程度。

从揭示主题概念的精确度来衡量的。

在准确基础上的全面性才是有意义的。

主题标引中应选最恰当的主题词,分类标引中应将其归入最专指的类目。

3、一致性:

选用表达文献主题内容所需标引词的一致程度。

主题标引时由于标引人员过多以及标引人员对文献内容认识程度不同,而导致主题标引词过多过少。

信息标引的步骤:

三、

(一)主题分析

主题分析:

弄清文献讨论的中心思想,以确定被标引文献的主题概念。

精彩文档.

实用标准文案

1、主题类型和结构

主题类型:

①依据主题数量多少,分为单主题和多主题。

单主题:

一篇文献只研究一个事物(对象)或一个事物(对象)的一个或几个方面。

多主题:

同时研究两个或多个独立事物(对象)②依据主题显露程度,分为显性主题和隐性主题。

主题结构:

构成文献主题和各个基本主题的因素以及它们之间的相互关系。

文献主题因素可归纳为五个基本方面:

主体因素(文献研究论述的关键性主题概念)、通用因素(对主题概念起限制修饰作用)、位置因素(文献研究的事物(对象)所处的地理位置)、时间因素(文献研究的事物(对象)所发生的时间)、文献类型因素(文集丛书年鉴等)。

2、主题分析方法

主题分析:

对文献的内容特征和外表特征进行分析的过程,内容特征是其根本依据,外表特征是其辅助依据。

方法有两种:

一种是先找出文献论述的对象,再进一步查明是论述了对象哪个方面的具体问题。

可按照事先设定好的主题结构模式提炼相关主题要素,分析主题要素之间关系。

主题结构模式可表述为“主体因素-通用因素-空间因素-时间因素-文献类型因素”

另一种是先找出文献所涉及的各种概念,并查明它们之间的相互关系。

文献中包含哪些因素就分析哪些因素,再将各个因素按主体结构模式进行分析。

进行主题分析时①要客观全面反映文献固有联系,不能主观臆断②标引人员还应考虑到用户的检索需要,分析选定有实际意义的主题概念。

(二)概念转换

概念转换:

以主题分析为基础,将确定的主题概念赋予检索标识的过程。

其结果是形成检索标识。

分类标引的概念转换依据主题分析的结果,查找分类表,将相应的分类号作为检索标识赋予被标引的文献。

主题标引的概念转换依据主题分析的结果,精彩文档.

实用标准文案

查找主题词表,将相应的主题词作为检索标识赋予被标引的文献。

概念转换按复杂度分为两类:

①直接转换:

直接从词表中选出对应的分类号或主题词即可②分解转换:

将复杂概念进行分解后选择相应分类号或主题词。

概念转换结束后还要进行标引结果的审核。

分类标引和主题标引3.4分类标引一、分类标引:

依据一定的分类检索语言,对文献内容的学科性质及其有检索意义的形式特征进行分析归纳,赋予文献分类检索标识(分类号)的过程。

目的:

揭示文献的内容及形式,以便将同类的文献集中在一起把不同的文献分开,根据文献的关系,科学组织管理文献。

作用:

编制分类目录分类索引,组织分类排架,便于族性检索。

(一)基本原则

1、学科属性原则:

文献分类标引应以文献论述的中心内容的学科属性作为分类的主要标准,以其他形式特征作为辅助标准。

2、专指性原则:

文献分类标引必须符合专指性的要求,将文献分入最恰当的类,而不能分入大于或小于文献实际内容的类目。

要区分总论与专论,一般原理与具体问题。

3、实用性原则:

根据读者需要将文献分入最大用途的类。

对于交叉学科的文献,应利用互见分类分拆分类等予以揭示。

4、系统性原则:

凡是归入下位类的书必须具有上位类的属性,体现它们的从属关系。

5、一致性原则:

①将内容相同的文献归入同一个类目,不要分散于有关各类②对于难以确定类属的主题,可建立分类规范文档,人为的将其集中到某类。

精彩文档.

实用标准文案

(二)各种类型主题文献的分类标引规则

1、单主题文献的分类标引规则:

①简单对某一事物或问题进行综合论述的文献,应按事物或问题的学科属性归类②从某一学科角度论述某以主题的文献,应按研究角度归入有关学科类目③从几门学科综合论述一个主题的文献,应按论述该主题的主要学科归类。

2、多主题文献的分类标引规则:

对各个主题进行分析,分清主次,然后①按最能体现文献内容实质或在内容中起主导作用的主题归类②必要时对另外主题作附加分类③若文献论述的几个主题具有同等检索意义,则分别标引。

3、相关关系主题文献的分类标引规则:

(1)应用关系:

①论述理论、方法、技术、材料在某一主题或学科方面的应用的文献,归入应用的主题或学科所属类目②论述理论、方法、技术、材料在多个主题或学科方面应用的文献,归入理论方法等本身③某一事物或学科应用到另一事物或学科产生的交叉学科主题的文献,归入应用到的事物或学科所属的类目。

(2)影响关系:

①论述一个主题对另一主题产生影响的文献,归入

被影响主题所属类目②论述一个主题对多个主题产生影响的文献,归入产生影响的主题本身所属类目。

(3)因果关系:

①一般归入结果方面的主题所属类目②若结果是多方面的且能区分重点,归入重点主题所属类目③若不能分出重点,归入原因方面的主题所属类目

(4)从属关系:

①依较大主题的学科属性归类,必要时对次要主题进行分析分类②若较小主题是论述重点,按较小主题的学科属性分类。

(5)两个主题相互比较的文献:

①按重点论述后所赞同的主题归类,必要时为另一个主题作互见②多主题之间的比较,归入包括这些主题的类组成的概括性类目

(6)并列关系:

①归入能概括其内容的上位类②无共同上位类的,按论述重点所属主精彩文档.

实用标准文案

题归③重点不明的,按按一个主题的学科属性归类

主题标引二、主题标引:

依据一定的主题词表,对文献内容进行主题分析,赋予语词检索标识的过程。

意义:

以主题词作为文献主题标识和查找依据,有利于族性检索,有利于文献情报工作的自动化现代化网络化。

(一)选词规则

1、文献主题标引应选用词表中的正式主题词标引,非正式主题词只起指向正式主题词的作用,本身不得用于标引。

2、文献内容的主题概念在词表中没有相应的最专指主题词时,可选用与其最直接相关最邻近的主题词进行组配标引。

3、文献内容的主题概念在词表中没有恰当主题词组配,可用一个最直接的上位主题词进行上位标引,或近义主题词进行靠词标引。

4、新增词应遵循一定原则:

①应是词形规范概念明确具有较重要检索意义或广泛组配作用②应较成熟稳定具有生命力③应是词表中明显漏收的。

5、各类名词主题词可直接作为正式主题词来使用。

(二)组配规则

组配标引:

将两个或两个以上主题词按照一定的逻辑关系加以组织以表达文献主题的标引方法。

1、主题词的组配必须是概念组配不能是字面组配。

2、当表达一个主题概念有多种组配方法可选时,应优先使用交叉组配,只有不能进行交叉组配的才考虑使用限定组配。

精彩文档.

实用标准文案

3、应选用与主题关系最邻近最密切的主题词进行组配,不能选择泛指主题词进行越级组配。

4、主题词组配标引的结果,必须概念清楚确切具有单义性。

5、当一个标题的主题词涉及不同的主题因素时,组配顺序一般为“主体因素-通用因素-空间因素-时间因素-文献类型因素”;当一个标题中出现多个主体因素时,按对象、方法、材料、过程、条件进行排列。

(三)主题词组配标引的形式

1、概念交叉组配:

同级组配,两个或以上具有概念交叉关系的主题词进行组配,来表达一个主题内容。

表现为同级主题词或事物与事物之间的组配。

将要标引的复杂主题概念分解为若干简单主题概念,且在词表中均有其对应的正式主题词,再将这些主题词组配成更专指的主题概念。

2、概念限定关系组配:

复分组配,由一个表示事物的主题词和另一个或几个表示事物的部分、属性、方面的主题词组合起来表达一个新专指概念的组配方法。

表现为事物与其各方面的关系,而非事物与事物的关系。

3、连接关系组配:

是一种特殊的概念限定关系,指复合主题中主体因素之间具有应用关系、影响关系、因果关系、比较关系、相互关系等。

自动标引3.5自动标引概括一、自动标引:

通过计算机的操作处理,赋予检索标识的活动。

分类:

①标引深度:

全文自动标引和题名自动标引②从选用标引词:

叙词自动标引和关键词自动标引③标引方式:

自动赋词标引(标引词来自预先编制的词表而非文献本身)和自精彩文档.

实用标准文案

动抽词标引(文献本身中抽词)④从标引形成标识:

分类自动标引和主题自动标引

自动标引方法二、

(一)统计标引法

统计标引法:

各类标引法中历史最长应用范围最广的一种。

理论基础是著名的齐夫定律,建立在较成熟的语言学统计研究成果基础之上,简单易行,具有一定客观性和合理性。

1、词频统计法:

该方法认为:

一个词在一篇文献中的出现频率是这个词对这篇文章的重要性的有效测度。

根据齐夫定律,将一篇较长文章中出现的词按递减顺序排列,用自然数这些词编上等级序号,频次最高是1级,用f表示频次,r表示等级序号,则有f×r=c(c为常数)。

卢恩在齐夫定律基础上,提出自动抽词基本思想,将词的出现频率按等级排列,以一定的标准排除高频词与低频词,剩下的就是最能代表文献主题内容的词。

目前,词频统计法常与其他方法连用。

2、加权标引法:

(1)逆文献加权标引法:

①标引时不仅考虑词在一篇文章中出现的频率,而且考虑在整个文献集合中文献频率。

②标引词的权重与出现频率一致,与文献频率成反比。

③词的出现频率指词针对文献集合中某篇文献而言,词的文献频率指词针对整个文献集合而言。

④一篇特定文献中,特征词的出现频率较高;在一个文献集合中,非特征词的出现频率较高。

(2)词区分值加权标引法:

根据词区分文献的能力确定标引词的权重,标引词的权重与其区分能力成正比。

逆文献加权标引法和词区分值加权标引法主要依赖于词的频率特征和词的区分能力。

缺点:

与用户的跟相关性无关。

(3)词相关性加权标引法:

根据检索结果给出的相关性反馈确定标引词的权重。

精彩文档.

实用标准文案

(4)价值测度加权标引法:

还要考虑相应的效率和费用。

词相关性加权标引法和价值测度加权标引法考虑①标引词词在特定文献或这个文献集合中的频率特征②标引词在相关文献集合和无关文献集合中的频率特征③检索结果的效益值。

3、n-Gram标引法:

以n字符串为统计对象,将其统计得分赋予该串中心字符,然后选择得分超过特定阀值字符的单词或短语作标引词。

原理简单处理容易。

4、统计学习标引法:

通过一个学习过程建立标引词与其相关词和不相关词的关系,并以此为基础确定标引词的标引值。

(二)语言分析标引法

1、句法分析标引法:

从语法角度确定每个词的作用(如是主语还是谓语)何词之间的相互关系(如是修饰还是被修饰)。

一般通过与事先准备好的解析规则或语法相比较而实现。

①浅层句法分析:

只把句子解析成较小的单元但不揭示这些单元之间的句法关系②深层句法分析:

充分解析和揭示句子的语法特点和反映的主题内容

2、语义分析标引法:

分析词在特定的上下文中的确切含义,以选择与主题含义相同的标引词。

(三)人工智能标引法

人工智能:

计算机科学的一个分支,专门研究怎样用计算机理解和模拟人类特有的智能系统的活动。

人工智能标引法:

在标引中的具体技术是专家系统(又称知识库系统),专家系统的知识表示方法主要有产生式表示法、语义网络表示法、框架表示法。

自动分类三、精彩文档.

实用标准文案

自动分类:

由计算机系统自动提取信息的特征项,依据一定的算法,将信息按内容或属性归到一个或多个类别的过程。

包括自动归类和自动聚类。

(一)自动归类

自动归类:

计算机系统按照一定的分类标准,将待分信息划归到不同类目的过程。

从实现的技术可分为两种:

1、基于词的归类技术:

①选择一种分类体系,利用现有的分类表词表同义词典等工具,形成归类底表②抽取表达主题内容的关键词,将其与预先设定的“分类号关键词”所形成的矢量空间模型进行匹配,找出每个关键词涉及的分类号③把所有分类号进行逻辑运算归并整理,结合各种复分表索引库根据级别,得出每个分类号的权值级别。

级别最高的类,即为该文献应归的类。

2、基于知识的归类技术:

显著特点是需要手工建造一个明确的知识库,主要依赖语言学知识,需要编制大量的推理规则,实现相当复杂开发费用昂贵。

(二)自动聚类

自动聚类:

由计算机系统按照被考察对象的内部或外部特征按照一定的要求,将相近相似或相同特征的对象聚合在一起的过程。

实现方法包括四个步骤:

1、网页表示:

包括特征抽取和特征选择。

一般是将网页特征进行特征加权将网页特征表示成计算机能够处理的数学向量。

该词的频率和该词在网页中出现的位置会影响特征的权值。

2、相似度计算:

主要根据网页表示的距离函数来定义。

3、聚类:

根据网页表示和相似度计算的结果,按一定的规则将聚类网页分成不同的类。

4、给出聚类的标识:

在最后形成的每一类中抽取一定具有代表性的特征作为该类的标识。

精彩文档.

实用标准文案

自动归类和自动聚类的相同点:

在信息标引技术的基础上,用计算机系统进行文本自动分类的过程,且广泛应用于搜索引擎领域。

不同点:

①自动归类需要确定一个后台的分类表,根据既定的分类规则,为待分文献确定一个或多个类别。

自动聚了不需要分类表,完全依靠数学方法提取类目②自动聚类比自动归类在技术上更容易实现,可以运用到单个搜索引擎或者元数据搜索引擎中,聚类效果也更加明显。

精彩文档.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2