ImageVerifierCode 换一换
格式:DOCX , 页数:38 ,大小:48.09KB ,
资源ID:10133255      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-10133255.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(推广工程数字资源联合建设地方文献数字化加工规则.docx)为本站会员(b****0)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

推广工程数字资源联合建设地方文献数字化加工规则.docx

1、推广工程数字资源联合建设地方文献数字化加工规则推广工程数字资源联合建设地方文献数字化加工规则(2015)1术语和定义1.1双层PDF将标准资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,直接生成的可检索的PDF文件。该文件是双层的,上层是原始图像,下层是识别结果。1.2单版TXT文件由图像数据一一对应进行文本转换得到的TXT文件。一个单版TXT文件对应一个图像文件。1.3合并版TXT文件将单版TXT文件按顺序合并得到一册书的完整TXT文件。2图像数字化和命名规则2.1图像数字标准2.1.1扫描标准(1)黑白页和灰度页用灰度方式扫描色彩位深:8 位 分辨率:300 dpi;小于5号字体用4

2、00 dpi档案典藏级格式:TIFF 不压缩(2)彩色页用彩色方式扫描色彩位深:24 位 分辨率:300 dpi;小于5号字体用400 dpi档案典藏级格式:TIFF 不压缩2.1.2拍照标准像素:不小于300万档案典藏级格式:TIFF 不压缩2.2数字化要求数字化环境注意防护光源,避免透光或反射光的影响。数字化后的图像清晰,文件页码连续,没有重页、缺页、错页等情况(原书缺页、错页除外)。补扫的图像要与同册图像文件的大小一致,颜色接近。(1)以原文献的上边沿为基准,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。(2)数字图像放大至实际尺寸100%,图像不失真。(3)数字图像文件与文

3、献原件颜色不一致,须先进行设备色彩校正,再重新进行扫描或拍照工作。2.3 数字图像处理要求数字图像处理是在未改变原扫描图像的色彩、分辨率、格式、压缩等情况下进行。数字图像文件处理容及要求如下:(1)纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯。(2)图像剪裁。图像保留到文献的外边缘。(3)不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。2.4数字图像检查要求根据本项目要求,数字化单位检查各级别图像数据的质量,建议扫描完成后立即进行质检。数据检查的容和要求如下:(1)图像文件(各种格式)放大到1:

4、1状态,逐页检查。检查文件是否有透光、透字、彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描(拍照)。(2)发现文件漏扫时,应及时补扫并正确插入图像。(3)拼接图像接缝处无错位、无缝吻合,不应出现白边和容缺失,没有明显的歪斜。(4)检查是否符合扫描(拍照)规格要求和技术参数。(5)所有文件保存位置正确,可以有效打开和显示。(6)图像名称必需正确,同一数据流水号不得有跳号情况,按顺序排列命名,图像文件的排列顺序应与原文献一致。2.5命名规则2.5.1加工编号(book_id)文献数字化加工过程中一册文献的唯一标识,它由1

5、1位数字和1位下划线组成。文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)、下划线(1位)、单位部流水号(3位)。本规则针对图书的文献基本资料类型为0,文献语种为1,加工年为公元年后两位数字(15年项目统一为15),机构代码见推广工程数字资源联合建设机构代码,单位部流水号由各单位自行分配,从1开始,不足3位以0补齐。例:01150101_0012.5.2图像文件名(1)前封(含封一、封二)扫描文件名为Axxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(2)前附页目录页之前的前附页扫描文件名为Bxxxxx_00,其中xxxxx为5位数字,按原书顺序依次

6、排序。目录页之后的前附页扫描文件名为Dxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(3)目录页扫描文件名为Cxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。(4)正文有页码的正文扫描文件名为Txxxxx_00,其中xxxxx为5位数字,与原书页号一致,按原书顺序依次排序。正文中插页扫描文件名为Txxxxx_yy,其中xxxxx为5位数字,表示插页的前一页顺序号,yy为数字,表示插页,并按原书顺序依次排序。(5)后附页扫描文件名为Yxxxxx_00,其中 xxxxx为5位数字,按原书顺序依次排序。(6)后封(含封三、封四)扫描文件名为Zxxxxx_00,其中x

7、xxxx为5位数字,按原书顺序依次排序。3双层PDF标准3.1双层PDF输出将处理完成后的TIFF图像进行OCR逐页识别校对。采用图在文上的模式进行双层PDF输出,包括单版PDF和合并版PDF两种,单版PDF命名与对应TIFF文件保持一致,合并版的命名同该文献的加工编号。PDF文件根据图像尺寸、颜色、数据存储量、按JPEG2000有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。3.2 PDF目录提取将输出后的双层PDF进行目录标签提取,提取级别上限为三级。提取过程中应按照原书页面顺序进行提取,不可出现章节丢失或级别划分错误等情况。3.3PDF文件质量要求

8、(1)双层PDF数据需完整,避免缺页、重页、页码顺序颠倒等问题。(2)双层PDF文件的图像层和文字层的文字对位准确,反显区域与文字区域相差1毫米以。(3)打开一本电子文献阅览并对文字放大时,保证在放大到百分之二百的时候,字迹清晰,笔画连续,无断裂、缺块的现象。(4)合并版PDF必须制作书签。书签是电子书的目录,容和纸质书的目录一致。书签的功能是用户点击书签的某一章节,电子书会自动显示为相应页。打开PDF文件时,自动显示书签,书签只展开到第一级目录。(5)双层PDF错误率不超过0.3。4图像文本转换要求4.1单版TXT和合并版TXT(1)对图像数据逐页进行版式分析,并对版式分析结果进行质检。(2

9、)对图像数据逐页进行文本转换,生成单版TXT文件,文件名与对应TIFF文件名一致。(3)对单版TXT文件进行校对。(4)经验收合格的单版TXT文件需合并生成合并版TXT文件,合并版文件的命名同加工编号。(5)图像中的注释、下划线等特殊情况需进行专门处理,表格、插图、空白页等需进行描述,描述容用 = =进行标识(= = 均用半角标识),并保存未转换文件对应的图像文件。4.2 TXT文件质量要求(1)文本数据应如实反映原书容、版面等所有原书相关信息。(2)文本数据保存格式为TXT纯文本格式。(3)文件命名无误,且在数量上与TIFF图像一致。(4)文本数据容与TIFF图像容吻合,不存在乱码、转换错误

10、等问题。(5)文本数据应如实反映原文的章节、段落,不应出现与文章不符的字符、段落、硬回车、空格等。(6)单版TXT文件与合并版TXT文件容完全一致。(7)文本转换数据的文字、符号,其错误率不超过0.3。4.3特殊情况处理办法4.3.1注释注释分注释类和解说类,仅对有意义注释进行转换,无意义注释不做转换。(1)注释出现在当页,且明确标出与正文对应位置的将注释容填入括号“()”,插回到原文注释所对应的位置。(2)注释在一篇文章或章节结尾,以参考或引用等专项标题单独列出的按原文版式转换,不插回原文。(3)解说类注释出现在正文文字段落中间或左右两侧,在正文中无对应位置的将注释容放在其出现的那段文字后,

11、另起一段,段首标注“注释:”。(4)解说类注释出现在黑框或深色底框,且在正文文字段落中间的将注释容放在【】,原位置转换。4.3.2空白页为保持容完整性和页面连贯性,正文中空白页需保留,并按照命名规则正确命名,容标注为“=此处为空白页=”。4.3.3插图与插图页(1)插图仅对有意义插图进行转换和标注。在插图出现的段落后另起一段,标注为“=此处为插图(图注)=”。(2)插图页均需保留,并按照命名规则正确命名,容标注为:“=此处为插图页(图注)=”;对于包含多个插图的插图页,容标注为:“=此处为插图页:图一(图注),图二(图注)=”。4.3.4表格与表格页表格只转换表格文字及表注,任何形式表格边框不

12、予转换。(1)表格简单的单列或横向排版表格应予转换;多列复杂表格,容为分类列举的文字按列予以转换;其他表格不予转换,在表格出现的位置,标注为“=此处为表格(表格说明)=”。(2)表格页需保留,并按照命名规则正确命名,容标注为“=此处为表格页(表格说明)=”。对未进行转换的图像和表格,需在其所属单版TXT文件目录建立“未转换文件对应图像”子目录,将此插图/表格所在的图像文件以jpg格式保存在该子目录,命名不变;多个插图/表格对应同一个图像时,仅保存一个图像文件。同时对未进行转换的插图/表格在文献全文转换未转换文件记录表中进行记录。4.3.5拼音文字混编拼音文字混编分为对全文均做拼音标注和仅对个别

13、文字做拼音标注两种情况。(1)全文均做拼音标注的(拼音一般标注在文字上方),只转换文字,不转换拼音。(2)个别文字做拼音标注的(拼音一般标注在文字后面),需按照原文版式,同时转换文字和拼音。4.3.6下划线(1)下划线标记的为单个字符或字母的,将标注容填入【】,放在有下划线的字符或字母后。(2)下划线标注的为一句话或一段字符或字母的,将有下划线的容放在(),标注容填入【】,放在有下划线的容后。4.3.7其他无法录入的生僻字、公式、符号等容用“”表示。同时将“”所对应图像文件保存在单版TXT文件目录建立“未转换文件对应图像”文件夹。文件夹建立方法:(1)子目录应包含所有用“”表示的图像文件并以j

14、pg格式保存。(2)图像文件删除其他信息,仅保留“无法录入的容”信息,图像命名不变。(3)多个用“”表示的容对应同一个图像时,仅保存一个图像文件。5.数据库命名及加工5.1数据库命名对象数据所对应数据库。数据库名由8位数字组成:文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。本规针对中文图书其文献基本资料类型为0,文献语种为1,加工年为公元年后2位数字。例:01150101.mdb5.2数据库制作5.2.1 对marc数据进行加工处理,制作文献基本信息表(book)。序号中文名称字段名称对应书目数据(MARC)容1加工编号book_id2分类cat_id第一个69

15、0字段$a3书名book_name200字段$a.$h,$i,$e4作者author200字段$f5pub_house210字段$c6出版时间pub_date210字段$d7ISBN号isbn010字段$a8001record_id001字段9条码号barcode10唯一标识符cdoi注:文献基本信息表(book表)除加工编号和条码号外,各字段容原则上均取自书目数据(MARC)。对于相同“001”、不同“条码号”的图书,要进一步标注“书名”字段,标注容用“()”括起来。如:(上册)、(下册)。如果没有MARC数据,可人工添加。5.2.2目录信息著录,生成文献目录信息表(catalog)。序号中

16、文名称字段名称备注1加工编号book_id2序号serial_num3章节号chapter_num4章节名chapter_name5作者author6页码page_num客观著录,如实反映目录页原貌(可为空)7绝对页码ppage_num文件名数字部分8页位置page_place文件名字母部分9属性page_prop1)“目录”属性为“1”;2)“无目录”属性为“2”;3)每册文献除第一条目录外,其余记录的属性默认为“0”。5.2.3 文献页著录,生成文献信息表(copyright)。序号中文名称字段名称备注1加工编号book_id2书名book_name3作者author4001record_

17、id5页位置copyright_place记录页文件名5.2.4 不带页号插图信息著录,生成文献插页信息表(inset)。序号中文名称字段名称备注1加工编号book_id2插页前正文页号prior_text_page文献印刷页码3插页数量inset_num5.2.5 文献缺页信息著录,生成文献缺页信息表(lostpage)。序号中文名称字段名称备注1加工编号book_id2缺页前正文页号start_text_page文献印刷页码3缺页数lostpage_num5.2.6 文献结构信息著录,生成文献结构信息表(process)。序号中文名称字段名称备注1加工编号book_id2封面页数fore_

18、cover_num3目录前,前附页数preface1_num4目录前,前附页起始页号preface1_start_page5目录页数content_num6目录起始页号content_start_page7目录后,前附页数preface2_num8目录后,前附页起始页号preface2_start_page9正文页数text_num10正文起始页号text_start_page11后附页数appendix_num12后附页起始页号appendix_start_page13封底页数back_cover_num注:起始页号均为文献印刷页码5.2.7 记录扫描分辨率、压缩因子、文件数量、存储量等信息

19、,生成文献加工信息表(struct)。序号中文名称字段名称备注1加工编号book_id2书名book_name3扫描分辨率dpi4压缩因子comp_factor5灰度页数量grey_num6彩色页数量col_num7TIFF数量tiff_num8PDF数量pdf_num包含单版和合并版总数量9TXT数量txt_num包含单版和合并版总数量10TIFF存储量tiff_mb存储单位:MB11PDF存储量pdf_mb存储单位:MB12TXT存储量txt _kb存储单位:KB13TIFF硬盘位置hdA_place硬盘号14PDF硬盘位置hdB_place硬盘号15TXT硬盘位置hdC_place硬盘号

20、注:在制作数据库表时,数据库表使用英文名称,同时将以上7表格中“字段名称”一栏容作为著录字段,横向排列。以文献信息表(copyright)为例,其他表格式相同。copyright:book_idbook_nameauthorrecord_idcopyright_place5.3 数据库制作要求数据库的制作符合下列要求。(1)文件格式为mdb格式。(2)使用字符集为UTF-8。(3)著录信息应严格按照文献实际容进行描述,所著容与对象文件应正确。(4)数据库字段、说明文件、各类表格等容严格按照附件规定和样例版式。 6.数据备份容包括TIFF图像、双层PDF(单版和合并版)、TXT文件(单版和合并版

21、)、对应数据库、说明文件、介质说明文件、文献的书目数据,各一份。各类型对象数据按加工编号递增顺序依次放置在硬盘,保存目录及文件名由四级组成:第一级目录为加工单位名称,如首都图书馆,同时将介质说明文件并行保存;第二级目录为TIFF单版PDF合并版PDF单版TXT合并版TXT,同时将对应数据库(mdb文件)、说明文件(Excel文件)及文献的书目数据(ISO格式)并行保存;第三级目录为加工编号;第四级目录为相应格式的对象数据文件,TIFF和单页PDF还需要相应的单册文献的说明文件。7.说明文件7.1 制作文献的说明文件说明文件格式:Microsoft Excel说明文件命名:地方文献数据说明(说明

22、文件的4表需保存在同一个Excel文件的不同工作表中,每个工作表按下列表命名)。7.1.1 数据总体说明表项目名称承建馆质检单位项目时间数据加工编号完成文献总册书完成文献总页数介质编号介质数量存储量备注注:“项目名称”填写项目名称,如地方文献数字化;“承建馆”填写承建馆名称全名;“质检单位”填写项目第三方质检单位全名;“项目时间”填写项目所属年份;“数据加工编号”以起始终止表示,如01150101_00101150101_030;“介质编号“填写硬盘编号,如01150101;“介质数量“填写存储硬盘的数量;“存储量“以GB为单位表示。7.1.2 文献单册数据量统计表序号加工编号灰度页彩色页图像

23、合计目录条数12合计注:“灰度页”本册文献中按灰度方式扫描的图像数量;“彩色页”本册文献中按彩色方式扫描的图像数量;“图像合计”灰度页与彩色页数量之和;“目录条数”本册文献录信息表(catalog表)条目数。7.1.3 文献全文转换未转换文件记录表序号加工编号未转换图像文件名对应单版文本文件名未转换原因备注12注:文献加工编号按递增顺序排列。7.1.4 全文转换加工文字量统计表序号加工编号文献名称文字量(千字)转换后文字量(千字)备注127.2 制作每册文献和保存数据介质的说明文件每册文献的说明文件 (bookinfo.txt)book_id=01150101_001book_name=xxx

24、xxxauthor=xxxxxxxxfile_number=519说明:book_id:文献加工编号book_name:书名author:作者file_number:总文件数存储介质的说明文件(readme.txt)一、文献类型:例如,中文图书二、制作时间:2015年 月三、承建馆: 四、加工单位:五、存储介质信息 1、介质名称: 2、加工起止号:例如,01150101_001 01150101_099 3、文献数量: 4、文件数量: 5、存储容量:六、技术参数 1、存储格式:例如,不压缩tif格式 2、加工设备: 3、加工软件: 4、参数指标 扫描分辨率:例如,300dpi 扫描方式:8.存

25、储介质命名及要求8.1 硬盘命名由8位组成:文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。8.2 存储介质要求介质中不得存放与备份容无关的文件、严禁携带病毒、严禁浪费介质空间。9.修订说明推广工程数字资源联合建设地方文献数字化加工规则(2015)在2014年地方文献数字化加工规基础上,对以下方面进行修订。(1)在“1.术语和定义”中删除了档案典藏级相关定义。(2)在“2.2数字化要求”中删除了“以中缝为中心线”要求。(3)在“2.4数字图像检查要求”中删除了部分命名规则、介质等信息检查要求。(4)在“2.5.1加工编号(book_id)”中添加了下划线说明和样例

26、。(5)在“3.双层PDF标准”中修改了错误率要求为0.3。(6)在“3.3 PDF文件质量要求”中删除了嵌入子集方式要求。(7)在“4.2 TXT文件质量要求”中添加了错误率要求为0.3。(8)在“4.3.7其他”中添加了“单版TXT文件目录建立“未转换文件对应图像”文件夹”,同时添加了图像保存格式为jpg要求。(9)在“5.2数据库制作”中增加了copyright表样例。(10)在“7.说明文件”中删除了序号、存储容、数据格式、存储介质字段,以及对其他表的格式进行了修改。附件1:推广工程数字资源联合建设机构代码附件2:地方文献验收数据提交单附件3:地方文献成品数据移交单附件4:推广工程数字

27、资源联合建设项目质检报告附件1推广工程数字资源联合建设机构代码序号机构名称代码1首都图书馆 01002区图书馆01013东城区第一图书馆01024西城区第一图书馆01035平谷区图书馆01046大兴区图书馆01057怀柔图书馆01068石景山区图书馆01079东城区第二图书馆010810西城区第二图书馆010911海淀区图书馆011012丰台区图书馆011113顺义区图书馆011214昌平区图书馆011315门头沟区图书馆011416通州区图书馆011517房山区图书馆011618延庆县图书馆011719密云县图书馆011820房山区燕山图书馆011921图书馆020022和平区图书馆020123泰达图书馆020224北辰区图书馆020325东丽区图书馆020426武清区图书馆020527西青区图书馆020628河东区图书馆020729区图书馆020830河西区图书馆020931南开区图书馆021032大港区图书馆021133塘沽区图书馆021234津南区图书馆021335汉沽区图书馆(市滨海新区汉沽图书馆)021436宝坻区图书馆021537红桥区图书馆021638蓟县图书馆021739静海县图书馆021840宁河县图书馆021941省图书馆030042市图书馆03014

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2