数字图书馆方案Word文档格式.docx

上传人:b****3 文档编号:6611104 上传时间:2023-05-07 格式:DOCX 页数:48 大小:587.93KB
下载 相关 举报
数字图书馆方案Word文档格式.docx_第1页
第1页 / 共48页
数字图书馆方案Word文档格式.docx_第2页
第2页 / 共48页
数字图书馆方案Word文档格式.docx_第3页
第3页 / 共48页
数字图书馆方案Word文档格式.docx_第4页
第4页 / 共48页
数字图书馆方案Word文档格式.docx_第5页
第5页 / 共48页
数字图书馆方案Word文档格式.docx_第6页
第6页 / 共48页
数字图书馆方案Word文档格式.docx_第7页
第7页 / 共48页
数字图书馆方案Word文档格式.docx_第8页
第8页 / 共48页
数字图书馆方案Word文档格式.docx_第9页
第9页 / 共48页
数字图书馆方案Word文档格式.docx_第10页
第10页 / 共48页
数字图书馆方案Word文档格式.docx_第11页
第11页 / 共48页
数字图书馆方案Word文档格式.docx_第12页
第12页 / 共48页
数字图书馆方案Word文档格式.docx_第13页
第13页 / 共48页
数字图书馆方案Word文档格式.docx_第14页
第14页 / 共48页
数字图书馆方案Word文档格式.docx_第15页
第15页 / 共48页
数字图书馆方案Word文档格式.docx_第16页
第16页 / 共48页
数字图书馆方案Word文档格式.docx_第17页
第17页 / 共48页
数字图书馆方案Word文档格式.docx_第18页
第18页 / 共48页
数字图书馆方案Word文档格式.docx_第19页
第19页 / 共48页
数字图书馆方案Word文档格式.docx_第20页
第20页 / 共48页
亲,该文档总共48页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

数字图书馆方案Word文档格式.docx

《数字图书馆方案Word文档格式.docx》由会员分享,可在线阅读,更多相关《数字图书馆方案Word文档格式.docx(48页珍藏版)》请在冰点文库上搜索。

数字图书馆方案Word文档格式.docx

成功的数字图书馆应用基于协作、共建和共享。

TRS数字图书馆应用平台独创资源整合门户,兼容、整合一切主流的数据源,并和数字图书馆领域的主要资源和技术提供商进行广泛和联盟和合作,如和超星、博利群、书生、青苹果、中国专利、中国产业经济数据库、清华文通等众多数据库厂建立了紧密合作关系。

强大的软件平台支撑-以领先的TRS内容管理平台为核心基础

数字图书馆技术的发展日新月异,强大的软件支持是不断发展的保障,内容管理是数字图书馆的支撑平台,TRS是内容管理的首倡和领导厂商。

TRS内容管理产品是国内外第一个覆盖内容采集、创建、分发和反馈全生命周期、全中文化、纯J2EE/XML的内容管理产品,在该平台上专门开发的TRS数字图书馆应用系统实现了特色资源建设、资源整合、个性化服务、知识服务等关键性数字图书馆应用需求,并对未来的创新发展提供了可靠保障。

独创和卓越的数据挖掘技术引领数字图书馆向知识管理发展

TRS于2002年在国内外第一个推出包括自动分类、聚类、智能相似性检索和信息去重等下一代信息处理技术的知识管理产品-TRSCKM,已有机融合到网络信息雷达、数据加工系统、参考咨询服务等应用产品之中,实现了数字图书馆应用从信息服务到知识服务的升级。

广泛的行业认可

TRS以先进的产品和优质的服务赢得了大部分主流数字图书馆行业用户的青睐和信任,包括各高校数字图书馆(清华、北大等一批院校)、中科院数字图书馆工程、党校数字图书馆工程、水利数字图书馆工程、国家数字图书馆工程、军队数字图书馆系统等,在数字图书馆应用领域,有数以百计的成功案例和不同行业的丰富经验。

二、TRS解决方案

2.1文献资源数字化加工

2.1.1加工对象

根据对图书馆行业需要加工的所有信息载体的分析,信息介质可以分成如下6种:

1.纸介质资料:

以纸张的方式存放的资料,如图书、期刊、论文等;

2.网络采集信息:

从互联网上获取的资料,如利用网络信息雷达搜索得到的网页;

3.电子文档:

各种电子办公软件产生的带格式文档,如OFFICE系列软件产生的.doc、.ppt、.xls、rtf,以及Acrobat产生的格式.pdf,报版/书版文件,即北大方正或华光激光照排系统生成的S2/PS/PS2等系列格式文件,以前的一些期刊排版CCT格式等;

4.外来的交换文档:

包括从其他图书馆自动化系统等途径获得的各种marc格式文档,符合ISO2709格式的文档。

5.自产文献:

如各种内部刊物文章等;

6.音频视频信息:

各种音频视频文件,需要经过加工标引上传到服务器,参与点播服务。

7.结构化数据库:

如建立在关系数据库上的自建特色库;

从加工信息数量上来讲,上述媒体按照纸介质资料->

网络信息->

电子文档->

外来的交换文档->

自产文献->

音频视频信息->

结构化数据库的顺序其数量依次递减,待加工的纸介质资料最多,结构化数据库最少。

TRS文献资源数字化加工系统将根据各种媒体上的资料的加工特点在加工流程和功能上分别考虑。

2.1.2TRS文献资源数字化加工系统特点和软件组成

TRS文献资源数字化加工系统总体特点和优势主要体现在:

1.支持国际国内图书馆行业主流标准和协议;

元数据是“描述数据的数据”,元数据是数据资源服务阶段的数据对象检索、定位、集成和交换的基础。

数据加工平台的重要功能之一就是为对象数据标引元数据。

要支持数据资源的开放性和互操作性,数字图书馆加工平台必须采纳国际国内图书馆行业的最新标准和协议,采用基于开放描述的元数据规范包括:

DublinCore、ISO2709(MARC)、Z39.50、XML/RDF、SICI(URI的一种)

2.提供多种媒体信息资源的加工包括纸介质、电子文档、互联网资源等;

3.支持标准的加工数据格式:

加工的文献数据格式可采用国际标准的PDF格式,便于读者浏览、交换、存档和全文检索;

4.加工工作量小、加工效率高、操作方便:

加工工序可以设置为系统自动处理,基本不需人工干预,TH-OCR2000系统独有纵向校对与版面恢复功能,可以使文本的错误率达到出版要求,并100%的恢复原出版物,加工流程和操作都极其方便。

5.技术先进,性价比高:

该系统分别采用了国内领先厂商TRS公司和清华紫光文通公司的全文检索和图像处理、OCR技术,厂商级的强强合作和无缝集成,在保证技术先进性的同时提供超值性价比;

6.扩展性好:

随着加工资源量的增加、服务规模增加、所加工资源和其他数字资源的关联性增加(如和图书馆自动化系统OPAC馆藏数据的无缝联接等),要求系统尤其是数据管理、发布检索系统在跨平台支持、数据的开发组织描述标准和互操作协议等方面的支持能力具有较好的扩展性,能够适应数字图书馆建设的进一步发展。

TRS文献资源数字化加工系统软件组成及加工服务流程图

2.1.3纸质资源数字化加工

纸质资源数字化加工主要针对图书馆馆藏资源、期刊等内容的数字化工作。

TRS集成了第三方OCR厂商的最新技术,形成了具备纸质文件扫描、识别、标引、入库等一体化功能的纸质文献数字化加工系统,操作简便,功能丰富。

功能介绍:

1、图像输入处理:

包括图像扫描、图像预处理(倾斜校正、去除噪声点等)、图像的版面分析(自动或手动)。

2、文字识别:

可识别简、繁体中文及英文,扫描并识别黑白二值、灰度和彩色图像。

3、校对:

提供横向、纵向、综合等三种方式的校对。

横向较对提供了识别后的文本与原文图像的对照校对方式,类似于目前通常采用的人工校对;

纵向校它把识别成某一文字的所有原始图像全部集中在一起,校对人员可以很直观地发现其中的识别错误并方便地加以修改。

综合校对是将横向校对和纵向校对的两个校对结果进行对比,从中找到两者不同的地方使校对人员予以重点关注。

4、原式原样的版面恢复:

根据用户的实际需要,通过“导出”可以将识别后的文本导出成“RTF”、“HTML”、“PDF”等格式的文档。

5、标引信息形成:

可以部分自动形成文档的标引信息,比如:

报纸的“版名”、“版号”、文章的“标题”、“副标题”、“正文”、“作者”等。

6、二次标引和自动入库

系统提供方便的人工标引方法,如鼠标选中、拖动操作等。

系统内在提供和后台数据的连接,标引操作可以按照预先设计数据库结构进行,标引完成可以,进行鼠标点击确认即可完成数据的入库。

7、网络化生产:

数据录入工厂为用户提供了网络化的生产环境,根据用户的实际需要可为用户提供从单用户到多用户的产品。

多用户版本使得数据生产可以形成一个完整的流水线,通过合理的工序配置使每个工作人员各司其职,提高了生产效率。

8、流程管理和质量控制:

流程管理贯穿于整个TH-OCR2000紫光文通数据录入工厂的操作流程当中,服务器端控制整个流程,它将数据打包、分发给各个客户端;

客户端接收数据包,完成流程当中的某个或某几个工序,完成后将数据打包发回给服务器。

9、质量控制功能是检验最终文本错误率的有效工具,它通过独特的方法检验横向校对、纵向校对和综合校对之后的文本差错率以确保最终文本的差错率在一定范围之内。

流程管理和质量控制是大批量数据高效、高质录入的必不可少的环节。

2.1.4TRS网络雷达系统

TRS网络信息雷达系统的主要功能是实时监控和采集目标网站的内容,对采集到的信息进行过滤和自动分类处理,最终将最新内容及时发布出来,实现统一的信息导航功能,同时提供包括全文检索、日期(范围)检索、标题检索、URL检索等在内的全方位信息查询手段。

网络雷达系统结构图:

增值服务

TRS网络雷达系统可以允许用户任意定义目标收集网站,实现实时信息采集,信息的自动分类、去重、标引、入库和发布。

TRS网络信息雷达系统提供的是完整的产品,它提供网络信息的自动采集、自动过滤、自动分类、自动排重、自动入库、发布管理、信息检索的完整功能,可以按照用户的需求设置采集网站,定制分类模板,建立本地数据库,是用户完全拥有的软件产品。

TRS网络信息雷达系统采集的网页信息可以方便的进入TRS数据家加工系统进行深度标引加工后再提供增值服务。

TRS网络信息雷达系统产品的功能和特点如下:

1、信息采集

1)维护人员可方便指定采集的目标站点或页面。

2)提供日期变量和页码变量,使用户可以精确定位监控栏目。

3)采用多线程并发搜索技术,采集过程高效准确。

4)提供高效的更新手段,已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页。

5)维护人员可方便设定信息监控的时间周期,包括指定一天之内的多个定点执行时间,或者设定两次更新之间的时间间隔,以分钟为单位,并可设置为不间断运行。

6)支持基于网页内容的基于语义的自动分类。

7)提供按规则定义手段,用户可以自己定义收集信息的条件和分类规则,用户可以更新和修改维护。

8)支持基于网页内容的自动排重,可将重复的网页进行标注,只发布不重复信息;

自动排重采用TRS相似性检索技术实现,可根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断据有更强的准确性、实用性以及运行效率。

9)对带有表格内容的网页保留表格原格式内容。

10)可以采集对方部分数据库内容,可以在采集工具中提取输入数据库访问用户名和密码。

11)可以采集网页图片,并且能够区别广告图片和正文有关图片。

12)支持BIG5内码网页自动转换为GBK统一管理;

支持Unicode内码网页自动转换为GBK。

13)采集过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。

14)可以灵活设定采集结果的存储方式,具有开放性。

15)自动过滤网页中新闻的正文内容,剔除垃圾信息。

16)采集到的信息永久性存入本地数据库,形成本地资料库,不受原网站删除内容的影响。

17)采集的信息可以存储到多种数据库中,包括TRS、SQLServer、Oracle,存储的格式公开,可以方便开发其它应用。

18)提供数据导出和数据导入工具,实现采集信息的文件级共享,为内外网的数据交换提供支持。

2、自动分类

1)可对采集的网页进行基于内容的自动分类,不需人工干预。

a基于统计学原理设计,通过在大量语料库上的机器自动学习方法生成分类模板,采用先进的支持向量机和相似性检索相结合的分类方法。

b自动分类准确率达到85%以上。

c提供智能分类训练工具,可根据用户提供的分类语料库进行学习,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板。

2)可以提供基于规则的自动分类

基于语义规则的自动分类是利用人工定义的语义规则对信息进行分类,人们通过维护一个规则表来控制分类的效果。

基于语义规则的自动分类方法比较适合通过简单的规则即可明确判定的分类,比如按地区分类,按事件分类等。

1、用户可以自由维护分类辞表,人工添加或修改规则,辞表大小没有限制。

2、分类方法也可以随意更新,类别个数和结构都没有限制。

3、支持多级分类。

4、支持类别复分。

3、信息发布

1)对采集的信息可及时通过Web服务器发布到提供服务的网站上,页面刷新的频率可由最终用户调节。

2)按分类导航信息,把从各网站采集的不同风格的信息统一导航。

3)实现本地页面浏览和原网页浏览两种浏览方式,使用本地页面浏览方式可以节省互联网带宽,而且访问速度不受互联网接入带宽的限制;

使用本地页面浏览方式还可以在不接入互联网的情况下浏览互联网上的信息,适用于内网、专网和外网相互隔离的应用环境。

4)各分类和频道所发布的信息可以由管理员完全控制。

5)支持自动发布和人工发布两种方式,在自动发布方式下,采集到的网页将自动发布到网站上,人工发布方式下,采集到的网页需要经过维护人员的选择才能发布到网站上。

6)每个发布的栏目均可以单独设定是采用自动发布还是人工发布。

7)支持专题新闻定制,用户可以通过定义关键词来设定专题。

8)支持将采集到信息传输到TRS起头数据发布系统中,实现内部参考和定向再发布服务。

4、信息检索

1)检索核心采用基于成本优化的查询算法(索引分区技术,多线程并行运算技术,面向全文检索的Cache技术,大内存技术)提高查询速度。

2)支持大量并发用户的查询请求。

3)检索核心内嵌中文分词系统,并且内含中文分词表、主题词典、同义词典等知识词典(同时提供词典的维护手段),以提高全文检索的查准率和查全率。

4)支持对多种属性的检索,包括按日期(及日期范围)、URL、标题、关键词、文件大小等。

5)支持检索结果的后排序功能,包括按相关性、日期、网页大小等。

6)自动识别简体和繁体文件,并提供动态内码转换,使用户可以同时浏览简体和繁体文件。

7)支持中英文混合检索,中文实现按词检索。

8)提供二次检索功能。

2.2文献资源存储管理

2.2.1数字化资源组织

TRS数字图书馆的数据存储如在资源加工章节中所述,全面支持主流技术标准和行业协议标准。

1、DublinCore:

在网络资源描述方面,经过多年国际性努力,已经成为一个广为接受和应用的事实标准。

本系统完全支持DublinCore,在DublinCore基础上,用户还可以定义自己的其他元数据属性。

2、XML/RDF:

XML是一种开放的、具有很强互操作性的数据描述语言,目前和将来在数字图书馆领域都起着重要作用。

本系统支持XML,无论是XML格式文件进入本系统,还是本系统加工得到的数据以XML格式导出,都是本系统功能的重要组成部分。

3、URI(UniformResourceIdentifiers)

URI是按照特定规范为每个对象数据赋予一个唯一标识符。

对于相同对象数据,按照不同规范得到的URI也会不同。

目前国际上相对通用的URI规范包括:

DOI和SICI。

DOI是在电子出版业广泛使用的一种协议,DOISERVER提供DOI的注册和检索服务,此种方式是收费服务。

与DOI比较起来,SICI则是一种可操作性更强的URI规范,SICI是根据对象数据的各种元数据属性,按照一定的规则生成一个字符串,用来作为该对象数据的唯一标识。

SICI是不涉及使用费用问题的URI解决方案,TRS数字图书馆加工平台支持SICI作为对象数据的URI。

2.2.2资源管理平台

TRS数字图书馆的数字资源存储和管理采用TRS数据库(TRSServer)。

可以通过TRS关系数据库网关实现和关系数据库的结合,由TRSServer和关系数据库如Oracle、SQLServer等组成数据管理平台。

同时TRS管理平台支持文件系统,数据库可以有效结合文件系统实现多种方式的数据存储。

通过这种数据资源管理平台的架构模式,用户可以灵活决定数据对象和元数据的存储,可以构成分布式数据管理模式。

比如,根据具体数据资源类型,可以将元数据内容存放在关系数据库,可检索文本内容存储在TRSServer,视频、音频、图片等内容直接方在文件系统中。

由于这种数据管理平台的的分布式特点,结合数据资源的URI定位机制,不但实现单个图书馆的数据库资源管理,而且可以建立真正一体化的分布式数据管理架构,实现数据的共建、共管和共享。

关于TRS系统数据管理平台的分布式特点,请参考有关TRSServer的介绍内容。

2.2.3TRS数据管理有关产品

2.2.3.1TRS的关系数据库网关

在数据层实现关系数据库和TRS数据库之间的数据迁移和同步,对原有运行系统和最终数据访问用户透明,可以实现数据的实时动态跟踪和同步。

该产品全面实现了关系型数据库与TRS文档数据库之间的数据共享以及两者之间的双向数据迁移。

通过该产品,各种Web应用服务器可以透明地连接Oracle、SQLServer、DB2、Sybase和Informix五大主流数据库,构成数字图书馆最佳数据层解决方案,使用户在享有主流关系型数据库卓越的数据处理功能的同时,拥有TRS领先的全文检索功能。

主要特点:

1、充分发挥关系数据库和TRS非关系数据库管理各自的优势并有效地统一了数据源。

2、全面支持五大关系数据库:

Oracle、SQLServer、DB2、Sybase和Informix。

3、在应用服务器一级的集成,真正的三层结构:

数据库、TRSServer、Web应用服务器可以分布在不同的机器和平台上,在关键应用中可以有效地实现负载平衡。

4、内置安全机制充分保证信息安全。

5、高效的数据迁移功能,允许数据在各种数据库及TRS数据库之间自由流动,实现实时数据同步更新。

6、可视化的管理与配置工具使系统简单易用,轻松实现信息管理。

7、智能化定时计划运行工具,全面实现工作的无人监管。

8、每个网关可以同时实现多个关系数据库和TRS之间的数据同步。

2.2.3.2TRSServer

TRSServer是TRS公司完全自主独立开发完成的全文数据库系统,可以运行在各种主流操作系统平台之上,包括Windows、UNIX、LINUX等。

目前,包括世界上最大的中文多媒体数据库——新华社多媒体数据库,TRS数据库已经有一千家以上企业级用户。

2.2.3.2.1TRSServer基本功能和特点

体系结构

1、分布式体系结构,可以建立多个TRSServer并在中间件应用层实现透明访问

2、支持数据库一对多的单向镜像

3、多线程设计,支持SMP体系结构,支持大量并发用户访问

4、支持三层结构(DataServer,ApplicationServer和WebServer)应用,每一层均可扩展

5、32位平台也支持64位文件读写,即支持大于2G或4G的数据库

6、支持IA-64平台

7、输入/输出支持XML文件方式

8、支持OEM的OFFICE文档过滤,以自动建立索引。

(Windows/Linux/Solaris)

9、提供Runtime版本(WindowsNT/2000/XP)

10、TRSPersonalAPI(适合于开发光盘等桌面应用)

中文自然语言处理

1、支持GB2312/GBK编码,支持BIG5编码

2、直接支持GB18030编码(GB18030是续GB2312之后的关于汉字编码的国家标准,GB18030比Unicode优越之处在于与GB2312/GBK全面兼容。

2002年6月底之前提供此功能)

3、间接支持UNICODE

4、内嵌汉语自动分词系统(TRSV4.5版升级了分词系统,更换了词典,并统计建立了大量歧义排除规则,有效提高了分词准确性,极大地提供了查全率和查准率)

5、提供自动分类和摘要功能(以独立产品提供:

TRS中文知识管理工具包)

6、提供相似性检索功能(以独立产品提供:

7、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求

8、分词系统改善了对特殊英文串(如“AT&

T”)的处理

数据管理和

空间膨胀

1、支持中文、英文和中英文混合数据

2、支持多种数据类型(如日期,字符串,文本和二进制类型)

3、支持常用格式文件的入库和检索(如TEXT/HTML,MSWORD/Powerpoint/Excel/RTF,PDF,MARC/ISO2709等)

4、支持S2/PS2/PS格式文件的入库和检索(以独立产品提供:

TRSCEL)

5、支持多媒体数据的存储管理

6、支持多种形式的数据存放方式,如集中存放、分散存放或URL方式存放

7、高效的数据和索引压缩,实现了低空间膨胀率(-0.2~~1.0)

8、支持字段的唯一(Unique)特性

9、支持数据库纪录的增删改操作

10、不同操作系统平台之间,库结构自由拷贝,方便管理员操作

11、管理员可设置“定时优化”的时间,降低系统管理的成本

12、修改记录时,保存记录号的移动轨迹,能够使用移动前的记录号读取记录,确保数据维护的正确和安全

检索功能

1、支持中英文混合检索

2、支持结构化数据和非结构化数据的混合检索

3、允许使用文中的任意字、词、句和片段进行检索

4、全方位检索手段:

提供了多达48种检索运算符。

包括外部特征与正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性和重要性程度排序等

5、基于成本优化的查询算法(索引跳跃式扫描技术,多线程并行检索技术,Bigram混合索引技术等),使得G级数据库查询速度达到亚秒级

6、多库并行检索技术,对于多CPU机器能显著提高检索性能

7、自动分库(自动地把一个库拆分成n个库,对于用户是透明的,也就是逻辑上还是一个库;

主要目的是提供性能。

8、完善的CACHE技术(包括检索词/短语/表达式的一级/二级缓存技术),从而支持更多的并发用户访问,并大大提高综合查询速度

9、独创的基于词以及词频的bi-gram算法

10、提供索引的直接访问功能,以支持数据的关联性检索

11、LIFO:

后进先出的快速排序

12、支持“缺省字段逻辑优先”的运算方式

13、支持对检索结果的各种排序,包括基于字段的排序和相关性排序

14、多种方式的相关性排序选择

15、对多库检索结果进行混排

16、支持命中词的反显

17、支持NUMBER型字段的三种子类型,即:

32位二进制单精度浮点数(7位十进制有符号整数)、64位二进制双精度浮点数(15位十进制有符号整数)以及32位十进制有符号整数

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2