从档案学视角看网站文件的归档Word格式文档下载.docx
《从档案学视角看网站文件的归档Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《从档案学视角看网站文件的归档Word格式文档下载.docx(5页珍藏版)》请在冰点文库上搜索。
二、网站文件归档的可行性
就世界范围来看,由图书馆来承担的网页收集项目对网页的捕获、归档、存储都进行了研究,并在实践中取得了可喜的成绩,但是鉴定的角度不同,图书馆更加关注的是网页的文化价值,而忽视了其原始记录性,对于元数据捕获也没有给予足够的重视。
笔者认为,网站文件归档的任务应当由档案部门来承担,档案学理论可以借鉴到网站文件归档中来。
1、电子文件管理对网站文件归档的借鉴意义。
网站文件本身就属于电子文件的范畴,可以按照电子文件的管理方法进行管理,网站文件的生成、发布、捕获、归档、利用是一个完整的运动过程,应当对其全程控制,不仅保存网站文件本身,还要连同元数据、变化日志、插件程序等一起保存,才能保证网站文件的真实性和完整性。
2、来源原则对网站文件归档的借鉴意义。
面对浩如烟海的网站文件,最好的方式就是以网站为单位进行保存,同一个网站的所有网站文件保存在一起构成该网站的“全宗”。
网页与网页之间的链接关系和网页与程序文件的依附关系也不能被破坏。
目前美国的互联网档案馆已经体现了“来源原则”。
3、档案鉴定理论对网站文件归档的指导作用。
早在20世纪80年代,法国档案学者罗尔德·
瑙格勒提出了电子文件的“双重鉴定论”①,一方面要判断电子文件信息的有用程度,另一方面要判断电子文件有用程度实现的可能。
网站上的信息以多种格式存在,并且具有多种表现形式,需要从技术上判断其有用程度实现的可行性。
对于网站文件内容上的鉴定,可以借鉴加拿大档案学者特里·
库克的“宏观鉴定战略”,从能否反映该机构的职能,能否反映当时的社会环境,能否满足人们的社会期望等角度进行鉴定。
4、档案部门理应承担网站文件归档的责任,由机构档案室对本机构网站包括内联网和外联网上的网站文件进行归档,公共档案馆对所有的公共网站上有价值的文件进行保存。
三、网站文件的归档策略
1、网站文件归档范围的确定
并非所有的文件都成为档案,同样,并非所有的网站文件都具有长期保存的价值,因而需要制定一个策略决定哪些需要归档,需要保存多长时间。
从内容上来看,有两种基本的收集方法:
广泛收集法和选择收集法。
广泛收集法是通过自动捕获软件收集网络上的一切资源。
②选择收集法由人工进行鉴别有价值的文档然后再进行收集。
③。
从技术上来看,应当归档的文件包括:
系统软件、自动化软件的结构文件、日志、cookies、索引、图形、文本、出版物、图像、音频、视频。
2、网站文件的捕获策略
捕获策略取决于网站的类型和复杂程度,最常用的两种捕获方式是:
对象驱动法和事件驱动法④。
适合于由HTML文件构成、不能实现交互功能的网站。
事件驱动法主要是捕获网站和用户之间发生的事件或事务,适用于数据库驱动的动态网站。
两种方法的最大不同就是着眼点不同,对象驱动法关注的是构成网站文件的对象,而事件驱动法关注的是网站和用户之间的单独的一个事件。
以上两种方法讲的是什么元素需要捕获,并没有说明捕获时间。
捕获的时间取决于网站变化的范围和频率。
网站更新存在以下四种情况:
经常更新,更新间隔的时间是三个月以内;
不经常更新,更新间隔的时间是三个月以上;
有规律地更新,按照计划有规律地进行变化;
不规律地更新,没有按照计划进行更新,更新时间比较随意,更新间隔的时间也是不确定的。
按照以上四种变化情况,网站可以分成以下四种类型:
规律且经常更新的网站、规律但不常更新的网站、不规律但经常更新的网站、既不规律也不经常更新的网站。
捕获网站文件的时间是由网站的变化情况来决定的,跟踪不规律但经常更新的网站难度很大。
3、网站文件的保存策略
由于计算机软件和硬件的不断更新,今天还存在的电子文件十几年或几十年后未必能够读取。
除了HTML文本文件属于非专利的形式外,网站上包含许多专利格式,例如,Java程序、ActiveX程序、.jpg格式文件、gif格式文件、.tiff格式文件等都是网站的构成要素,所以仅保存HTML文本文件是远远不够的。
网站的内容、结构、背景都要保存,脚本程序和插件程序也需要保存,对于网站文件来说,元数据和数据同样重要。
网站文件的保存方法主要有数据考古、仿真法(Emulationstrategy)和迁移法。
数据考古是由格拉斯哥大学的SeamusRoss提出的一种方法,也叫数字考古⑤,是将在当前软件下生成的且以当前格式保存的电子文件移动到电子文件管理系统中,直到将来利用的时候才将其转移到新技术环境下。
仿真法是指用一个计算机复制另一个计算机的运行活动的过程,仿真计算机能够逼真地模拟原始计算机,并将其取代⑥。
迁移法指的是把数据从一种过时的数据格式移动到当前使用平台,例如将word97格式保存的文件移动到office2007软件平台中。
与数据考古和仿真法相比,迁移法在实际中的应用更为广泛。
数据考古只能作为一种短期战略,并非长久之计,而仿真法仍然处于理论探索阶段,并且对技术具有很强的依赖性。
所以,迁移法是目前惟一的长久保存方法。
⑦
四、网站文件归档存在的问题
虽然网站文件归档的项目已经展开,人们对网站文件的关注程度逐步上升,但是目前网站文件归档尚处于探索阶段,仍然存在许多问题,尤其是国内网站文件归档的有关研究还是相对滞后的。
1、动态网页的捕获问题
动态网页一般都有后台数据库做支持,具有很强的交互性,网页会根据用户的要求和选择而动态改变和响应,用户的客户可以在网站上留言发表疑问、建议和意见等。
动态网页的组成要素都是通过数据库自动生成新的页面,无须手动更新,例如在线采购系统、商务交流系统中的订单都是自动生成的。
2、网站文件管理流程该如何设定的问题
文件的流程管理属于业务活动的特殊流程,负责管理组织机构所有业务流程中形成的文件。
网站文件与一般的文件管理流程也有所不同,因为网站文件的生成、控制、传播和保存的责任相对比较分散,给网站文件的管理流程设计加大了难度。
3、网站文件的长久保存问题
网站文件长久保存包括软硬件更新对网站文件的再现,网站文件保存体系的构建,备份和容灾系统的建立等。
在数字保存方面,OAIS参考模型已经成为公认的标准,网站文件的保存也可以借鉴OAIS参考模型,实现长久保存和利用。
另外,也有人提出了建立软件和硬件博物馆来实现数字文件的长久保存。
4、相关的法律问题
比如,着作权问题,网站文件的作者是无法明确的,有些还是匿名的;
编辑权问题,包括URL链接的相对变更、文字编码转化、信息单元表现形式的变更⑧;
采集权问题,档案部门是否有权对网页进行下载、复制、备份;
长期保存权问题,保存机构是否可以无限期拥有作为国家文化遗产的网站;
公布权问题,保存机构捕获网站文件之后是否具有公布权;
隐私权问题,在对网站的利用过程中是否侵犯了网站形成者的隐私权。
这些都是迫切需要解决的法律问题。
谢伦伯格曾经说过,“电话是掠夺历史的盗窃者”,在人们享受网络带来的便利的同时,有没有意识到网络带走了历史呢?
注释:
①哈德罗·
瑙格勒:
《机读文件的档案鉴定:
一份“文件与档案管理规划”纲要性研究报告》,联合国教科文组织,1984年。
②http:
///
③http:
④DollarConsulting.ARCHIVALPRESERVATIONOFSMITHSONIANWEBRESOURCES:
STRATEGIES,PRINCIPLES,ANDBESTPRACTICES.http:
///pdf/dollar_
⑤SeamusRossandAnn RescueofDigitalMaterial.
⑥Jeff EmulationtoPreserveDigitalDocuments,原文:
”Emulationasaprocessinwhichonecomputerisusedtoreproducethebehaviorofanothercomputerwithsuchfidelitythattheemulationcanbeusedinplaceoftheoriginalcomputer”
⑦David andChimerasinthePreservationofElectronicRecords.
⑧钟常青、杨道玲:
《Web资源保存中的法律问题探讨》,《情报理论与实践》2006年第3期。