海洋数据库建设规范.docx

上传人:b****3 文档编号:5936574 上传时间:2023-05-09 格式:DOCX 页数:22 大小:274.19KB
下载 相关 举报
海洋数据库建设规范.docx_第1页
第1页 / 共22页
海洋数据库建设规范.docx_第2页
第2页 / 共22页
海洋数据库建设规范.docx_第3页
第3页 / 共22页
海洋数据库建设规范.docx_第4页
第4页 / 共22页
海洋数据库建设规范.docx_第5页
第5页 / 共22页
海洋数据库建设规范.docx_第6页
第6页 / 共22页
海洋数据库建设规范.docx_第7页
第7页 / 共22页
海洋数据库建设规范.docx_第8页
第8页 / 共22页
海洋数据库建设规范.docx_第9页
第9页 / 共22页
海洋数据库建设规范.docx_第10页
第10页 / 共22页
海洋数据库建设规范.docx_第11页
第11页 / 共22页
海洋数据库建设规范.docx_第12页
第12页 / 共22页
海洋数据库建设规范.docx_第13页
第13页 / 共22页
海洋数据库建设规范.docx_第14页
第14页 / 共22页
海洋数据库建设规范.docx_第15页
第15页 / 共22页
海洋数据库建设规范.docx_第16页
第16页 / 共22页
海洋数据库建设规范.docx_第17页
第17页 / 共22页
海洋数据库建设规范.docx_第18页
第18页 / 共22页
海洋数据库建设规范.docx_第19页
第19页 / 共22页
海洋数据库建设规范.docx_第20页
第20页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

海洋数据库建设规范.docx

《海洋数据库建设规范.docx》由会员分享,可在线阅读,更多相关《海洋数据库建设规范.docx(22页珍藏版)》请在冰点文库上搜索。

海洋数据库建设规范.docx

海洋数据库建设规范

地球科学数据共享材料八

 

海洋科学数据库建设规范

(讨论稿)

 

 

中科院青岛海洋科学研究所

地球科学数据共享政策与规范研究组

2004年5月

 

1.前言

海洋科学是一门综合性的学科,涵盖物理海洋学、海洋地质学、海洋生物学、海洋化学等多个学科,研究工作中所涉及、积累的数据也是多种多样各不相同,如物理海洋方面水文数据是记录着某一经纬度、某一时间、某一航次、某一深度的海水温度、盐度和密度信息;海洋地质方面基础地质数据记录着某一区域海底深度及海底地貌等信息;而海洋生物方面又可能是某一物种或某一标本的属性等,因此各方面的数据库建设也各不相同,建设规范也就各不相同。

根据这种情况作为海洋科学数据库的建库单位,一方面我们对整体的数据库建设有建设规范(总体要求);另一方面,要求每一个具体的数据库要通过建库的工作确定各自的规范和标准,这个规范、标准是代表海洋所水平的,基本也就是代表科学院水平的,而且要求进行必要的鉴定工作成为国家水平的。

2.海洋科学数据库建设总体要求

2.1海洋科学数据库总体框架构建

海洋科学数据库可以粗略地分成海洋水文子库、海洋地质子库和海洋生物子库三个部分,每个部分又包含了自成系统的多个具体的数据库。

确定海洋科学数据库的整体框架,(从总结中摘录),使海洋科学数据库建和服务设成为日常性的工作。

2.2具体的数据库的建库规范

2.2.1术语定义

源数据集:

具体数据库建库的数据来源,不拘于数据格式的、不断增长的数据集合。

标准数据集:

产生于源数据集,经过数据格式的统一,经过数据排重和质量控制后产生的数据集合,最直接的入库数据。

排重:

在数据集中排除重复数据的过程。

质量控制:

在经过排重的数据集中排除非法数据的过程。

专业性检索方法:

指专业科学研究所习惯的数据库的检索途径,包括检索关键字。

专业性检索结果:

指专业科学研究所习惯的数据库的检索结果,包括可视结果和标准的数据文件(能够直接用于专业研究的标准数据文件)。

2.2.2具体数据库的建库流程

专业性检索方法

统一数据格式数据库管理系统

排重和质量控制

专业性检索结果

2.2.3具体数据库建设目标

⏹建成三个数据实体

Ø源数据集

Ø标准数据集

Ø数据库

⏹形成五个数据处理标准(专家鉴定)

Ø数据格式标准

Ø数据排重方法

Ø数据质量控制方法

Ø专业性数据检索方法

Ø专业性数据检索结果

⏹数据库的元数据建设

⏹建立B/S结构的数据库检索手段

2.2.4数据库文档

 

海洋数据库建设规范实例:

中国近海和西北太平洋温盐声密数据库建设规范

1.前言

海洋信息是海洋科研、教学、工程设计、规划管理、环境测报及评价、海洋经济可持续发展和军事海洋环境条件保证等的主要依据,因此海洋科学数据的收集、处理和数据库建设具有重大的社会科学意义和紧迫的国家需求。

众所周知,物理海洋学是海洋科学研究和应用的基础,以海水温度、盐度、密度等参数为核心的海洋水文数据则是气候和海洋环境生态研究、环境预报和评价、工程设计、减灾防灾及军事海洋环境条件保证等的主要背景信息。

我国渤、黄、东、南海是世界大洋的一部分,其变化相互联系,并深受世界大洋的影响。

要研究和预测中国近海和邻近大洋的海洋环境变化,必须进行大范围的长期、同步海洋观测。

进行这样的海洋调查需要巨大投资,任何一个单位、部门、甚至国家都不可能单靠自己的调查力量或依据未经系统整理的数据去开展大规模海洋研究工作。

因此,海洋水文数据库建设不但有重要的使用价值,还具有昂贵的产出价值和显著的社会共有性,同时必须依据科学合理的建设规范来进行。

国际海洋水文信息是海洋水文数据库的主要数据源。

国际海洋水文数据种类繁多,时间序列长,空间分布广,信息量巨大,且积累速度快。

这些数据分别来自全球几十个国家和地区;使用的观测仪器千差万别;资料的整理方法各不相同;导出参数的计算方法和公式各异;由实测层数据内插标准层的方法也各有长短;甚至采用的数据处理标准和编码,以及记录的资料的格式也仍在统一过程中。

因此,规范化的建库方法和标准化的建设流程,以及先进的排重技术和严谨的质控方法都是保证建设合理、适用的海洋信息管理系统的前提条件。

本规范是在总结海洋数据库体系中有代表性的“中国近海和西北太平洋温盐声密数据库”的多年建库经验的基础上逐步发展完善起来的。

本规范的创新及特色之处包括:

通用的ODSF1数据输入/输出格式、统一的数据排重程序、标准的数据质控方法、规范的数据库建设流程和全套国内外通用代码。

它不仅指导了该数据库的建设,同时对海洋科学其他数据库的建设有借鉴作用。

2.中国近海和西北太平洋温盐声密数据库建设规范

2.1适应范围

本规范适用于海洋物理(含温、盐、密、声、流、浪、潮)、海洋气象和化学数据库建设中的相关数据处理工作及相关数据库建设。

2.2引用标准

国家标准:

(1)GB12763.1—91海洋调查规范海洋调查规范总则

(2)GB12763.7—91海洋调查规范海洋调查资料处理

(3)GB12763.3—91海洋调查规范海洋气象观测

(4)GB12763.4—91海洋调查规范海洋化学要素观测

(5)GB12763.5—91海洋调查规范海洋声、光要素调查

(6)GB12763.2—91海洋调查规范海洋水文观测

(7)GB12763.6—91海洋调查规范海洋生物调查

(8)GB3100~3102-82量和单位

(9)GB/T17839-1999警戒潮位核定方法

(10)GB/T1.1—1993标准化工作导则

(11)GB12327—1998海道测量规范

(12)GB17501-1998海洋工程地形测量规范

(13)GB/T14158-93区域水文地质工程、地质环境、地质综合勘察规范(比例尺1:

50000)

(14)GB/T17798—1999地球空间数据交换格式

(15)GB12409—90地理格网

(16)GB/TGB2808-81全数字式日期表示法

GB/T12763.1-2007 海洋调查规范第1部分:

总则

GB/T12763.2-2007 海洋调查规范第2部分:

海洋水文观测

GB/T12763.3-2007 海洋调查规范第3部分:

海洋气象观测

GB/T12763.4-2007海洋调查规范第4部分:

海水化学要素调查

GB/T12763.5-2007海洋调查规范第5部分:

海洋声、光要素调查

GB/T12763.6-2007海洋调查规范第6部分:

海洋生物调查

GB/T12763.7-2007海洋调查规范第7部分:

海洋调查资料交换

GB/T12763.8-2007海洋调查规范第8部分:

海洋地质地球物理调查

GB/T12763.9-2007海洋调查规范第9部分:

海洋生态调查指南

GB/T12763.10-2007海洋调查规范第10部分:

海底地形地貌调查

GB/T12763.11-2007海洋调查规范第11部分:

海洋工程地质调查

2.3技术术语定义/解释

2.3.1主子表结构和数据分组

(1)主子表结构:

通过关联字段使主、子表对应,以解决数据记录表头和观测层数据存、取的速度问题;主子表结构是数据记录“一对多”关系的具体体现。

(2)数据分组:

根据数据的某些特征将数据存储在不同的数据库对象中;检索时,只需要根据数据特征来定位数据,并快速得到查询结果。

2.3.2数据查询

(1)网格数据查询:

在显示网格数据信息时,直接读取和调用数据统计信息的过程。

数据统计信息是在进行数据维护时生成的,并存储到单独的数据库对象中。

(2)鼠标点击查询:

鼠标点击事件发生时,系统先通过中间数据定位查找结果,然后再将查询结果反馈给应用程序的全过程。

中间数据是在数据维护过程中生成的,将基本数据中的某些信息进行提炼,并存储到单独的数据库对象中。

2.3.3数据定位

确定数据所在位置(测站)的技术和过程,包括:

(1)“极值”定位:

依照网格数据的统计结果、根据统计网格编号和经、纬度值,查询检索到该网格中的极值存在于特定测站的技术和过程。

(2)“站次ID”定位:

通过给定的经、纬度和站次ID,检索和查阅该测站全部信息的过程。

(3)“航迹图”定位:

使用航次信息绘制的航迹或断面图去诊断和定位“有疑问”资料的技术和过程。

(4)模糊定位:

由于鼠标点击定位时,“点击点”与“真实数据点”之间存在位置上的差异,“模糊定位”是帮助用户查找到距“点击点”处最近的数据点的技术。

2.3.4数据格式参数化

把数据格式以“自定义参数的形式”设计在程序中,统计调用时,通过函数名称进行调度的技术。

2.3.5相关参数“函数化”

将数据类型、观测参数、航次信息等先以函数的形式存放在数据表中,然后在程序运行中通过函数进行转换以便达到只改变列表,不改动程序,就能容易达到预期的变更目的之技术。

2.3.6数据库对象命名

将参数直接写在数据表中,通过数据表的名称来判断和定位数据,并缩小检索范围,以解决参数快速准确存取的技术。

2.3.7元数据(metadata)

描述某类数据的属性、特征、时、空变化范围及其质量、精度等相关信息的集合。

2.3.8编码

将信息分类的结果用一种易于被计算机和人识别的符号体系表示出来的过程,是人们统一认识、统一观点、相互交换信息的一种技术手段。

编码的直接产物是代码。

2.3.9空间数据结构

指空间数据在计算机内的组织和编码形式;它是一种适合于计算机存储、管理和处理空间数据的逻辑结构,是实体的空间排列和相互关系的抽象描述。

2.3.10图文资料扫描数字化

通过扫描把以纸介质为载体的图文资料由模拟信息转变为数字信息,并按一定的质量要求对电子文件进行加工和制作,然后存储在磁带、磁盘或光盘等介质上的过程。

2.3.11源数据集

本系统所使用的数据来源之集合。

2.3.12基础(存档)数据集

指来自于源数据集的数据,经过格式转换、代码统一、重复排除和质量控制后形成的实测层数据集合(相对“标准数据集”而言)。

值得一提的是:

对于在标准层上发现的资料质量问题,必须到实测层存档数据集中寻找出错原因,再加以改正,然后重新计算标准层后入库。

2.3.13标准数据集

根据实测层数据计算出的准备入库之标准层数据集合。

标准层定义见下表

序号

系统名称

标准层的层次

1

营养盐数据子系统

0,5,10,15,20,25,30,50,75,100,125,150,200,250,300,400,500,600,700,800,900,1000,1100,1200,1300,1400,1500,1750,2000,2500,3000,3500,4000,4500,5000,5500,6000,6500,7000,7500,8000,8500,9000

2

深层流数据子系统

3

海峡通道数据子系统

4

温盐密声数据子系统

5

ARGO数据子系统

6

统计产品信息子系统

2.3.14排重

排除数据集中重复数据的过程和技术。

2.3.15质量控制

剔除数据集或数据库中随机错误和“人为虚构”测站资料与数据的过程及技术之总称。

2.4编码、属性表命名规则

2.4.1编码规则

本数据库中使用了包括网格编号、国家编码、资料源代码、资料类型、参数编码等在内的诸多编码,其编码规则均采用由美国国家海洋数据中心编制的世界海洋数据库(WOD)编码规则。

为了方便数据循环调用和统计,字段编码采用代码制,即根据数据参数的特点,事先制订字段参数-代码表,然后依据参数-代码表进行数据库设计

2.4.2数据库命名规则

 

数据库名称为9位编:

如ODMS_4002

 

2.4.3数据表命名规则

 

数据表名称为12位编:

如T_1312011111

2.4.4字段命名规则

为了方便数据循环调用和统计,字段编码采用代码制,即根据数据参数的特点,事先制订字段参数-代码表,然后依据参数-代码表进行数据库设计

2.5元数据标准

采用的元数据标准为《WDCD海洋学资料元数据标准》(见附件1)。

2.6文档格式

本系统吸收国际各种数据格式的优点,自行研发和采用了“海洋资料共享格式(ODSF)”,并改进为ODSF1,作为输入、输出格式(见附录2)。

2.7数据库建设流程

温-盐-密-声库的建设流程如下图所示。

在做好数据收集提取、格式转换、编码统一、质量控制和排重工作的基础上,根据需求分析的结果,并灵活运用建库理论,通过数据管理子系统,将经过校验的数据导入库内,建成数据库实体。

 

择优

人/机结合质控/审核

 

 

程纠错后重新计算标准层

 

库内分析诊断模块

 

可使用程序纠错可人工纠错资料

经重

二新不可纠错的测站资料

次导

诊入

断数

处据

理库

后内

2.8数据质量控制

2.8.1质量监控体系

质量监控体系包括数据入库前的质量控制流程和排重流程,以及数据入库后的库内分析诊断模块。

2.8.2数据质量监控

1、数据质量控制流程图

合并

分区

内插标准层

取得第一代质控参数

第一次质控

人/机结合纠错

第二次内插

第二次质控

第二次纠错

第三次内插

注:

WOD01资料由此开始质控!

第三次质控

第三次纠错

第四次插值

开始新一轮质控过程

 

2、排重工作流程图(以OSD类型资料为例)

对第一次排重用经纬度和时间的第一组参数分离出完全重复的资料

确应

认的重复

重不重复

确至人工审核

认REP否

左是

确各

认程

序择劣合并

确块选优

认第二次排重使用经、纬度和时间组合的第二组参数

造人工审核

确假否

认资

合并

第三次排重使用经、纬度和时间组合的第三组参数

入拷贝对应重复站人工审核

重至REP否

数是

据拷贝至重复站REP

合并

3、库内分析诊断模块

(1)极值定位

利用本系统“通过给定站位和站次ID,可以查阅、检索,并显示该站完整信息”的功能,并“根据网格数据的统计结果,可进行极值(极大或极小值)定位”的功能模块,能够确认从0.1º*0.1º到10º*10º任意方区内的极值是否合理,从而达到诊断资料真实性的的目的;因为“错情”通常是与观测参数特定空间范围和特殊时段的“极值”(极大/小值)紧密相关。

(2)同步观测资料类比

将数据类型、观测参数、航次/断面信息先以函数的形式存放在数据表中,然后在程序中通过函数进行转换,使相关参数“函数化”;这样只改列表,而不动程序,就可容易地达到预想的变更目的。

有质量问题的资料(造假)入库后,通过相关参数“函数化”处理和系统强大的统计检索功能,可以把与该资料(造假)同属一个航次/断面的有关资料和其它航次/断面的同步或准同步测量资料调度到同一平面上类比,从而确认该(造假)资料的真实性。

实践证明,相当数量人为制造的资料与真实资料在同一时空环境下类比就会暴露“伪”的原形。

(3)盐-密模定量分析

表征水团特性的温—盐曲线在特定海区具有定常的形态(Svordrup等1942),因此使用温-盐或盐-密双变量频率分布所形成的模式,可以检验现有观测资料的质量。

美国国家海洋资料中心DouglasHamilton博士于1976年率先研制了5︒×5︒网格的盐-密模,并用于定性质控(EnvironmentalModelsforQualityControl,1976,DouglasHamilton)。

借鉴美国的经验,使用了数据子系统的温、盐资料计算出条件密度,再用盐度和密度值及其它相关参数制成不同海区、季节/月份、以及不同层次上的盐-密模型;之后再用盐-密模型检验入库资料的质量,剔除可能会严重影响统计结果的非真实资料。

(4)航次/断面分析诊断

如果某一航次/断面中的“一个或多个”测站出现“有疑问”的资料,系统会根据具体需要和该航次综合信息绘制出航次/断面图,以确诊“疑问”之所在,并帮助纠正元数据,同时提供纠错办法与可能的“订正量”,即订正值的大小。

2.9数据库汇交(集成)(汇交至的方法和途径等)

(1)由研发单位向中科院科学数据库中心汇交本数据管理系统;

(2)所有的数据库建设成果及相关文档(项目设计书、总体方案、建库合同、协议等)均按科学数据库有关要求存档保管;

(3)汇交数据文件的存储介质为光盘;

(4)提交成果之前,应进行全面查、杀毒,以确保数据的安全。

附录1WDCD海洋学资料元数据标准

数据集名称:

中国近海和西北太平洋温盐声密数据库

数据集编码:

待定

数据集内容关键词:

海洋信息、格式、质控、排重、管理系统、标准

数据集内容:

海洋学各分支学科的现场观测资料

数据集开始时间:

1876年6月

数据集结束时间:

2004年4月

数据空间范围(最低经度,最高经度):

100ºE~140ºE

数据空间范围(最低纬度,最高纬度):

10ºS~50ºN

数据空间范围(最低高度,最高高度):

海面~海底

数据质量说明:

数据质量可靠,误码率小于万分之六

数据存储介质:

CD-ROM、DVD、活动硬盘

数据存储格式:

入库数据均以数据表的形式存储

数据量:

12.6GB

数据来源:

全球海洋科学团体

数据集使用的语种:

中文、英文

系统、数据集、数据库等作者信息:

科学顾问:

胡敦欣

系统总设计:

许崇金、王凡、代亮、孙丰山、陈献辉、孙东丽、陈永利等

管理子系统设计:

代亮、许崇金、王凡、孙丰山、孙东丽、陈永利、陈献辉

温-盐数据库设计:

王凡、许崇金、代亮、孙丰山、孙东丽、陈永利、陈献辉

数据集存放地点:

中国科学院海洋研究所

数据集索取方式:

函索/面商皆可。

数据更新周期:

每半年至一年更新一次

 

附录2“海洋资料共享格式(ODSF)”

本数据库吸收国际各种数据格式的优点,自行研发和采用了“海洋资料共享格式(ODSF)”,并改进为ODSF1,作为输入、输出格式。

格式例样1:

123456

123456789012345678901234567890123456789012345678901234567890

CCcruiseLatitdeLongitdeYYYYMMDDTimeStation#第一个记录:

英文表头说明

49PR1926.830121.2551990111512.26IS-139第二个记录:

英文对应的信息

Nvar=2第三个记录;“2”参数个数

12第四个记录:

按顺序排列的参数代码(ParaCodes.txt)

0.023.732

(2)033.649

(2)0第五个记录以下为各层次之数据资料

5.023.741

(2)033.649

(2)09为观测层次数

10.023.746

(2)033.651

(2)0

15.023.742

(2)031.654

(2)10

20.023.731

(2)033.661

(2)0

25.023.637

(2)033.696

(2)0

30.023.569

(2)033.722

(2)0

50.033.560

(2)2033.723

(2)0

63.423.571

(2)033.728

(2)0

资料来源国原有质量码位(空位)

美国资料中心质量代码位

本数据库新加质量码位“2”和“1”

格式例样2:

表头信息

序号

名称

含义

长度

示例

1

国家代码

IOC国家编码

A2

21=中国

2

调查船代码

各国家自己定义

A4

3

航次号

由调查单位设置

A8

4

断面号

由调查单位设置

A5

5

经度

测站的位置

F8.3

6

纬度

测站的位置

F7.3

7

10º*10º,5º*5º,2º*2º,1º*1º,0.5º*0.5º,0.25º*0.25º,0.1º*0.1º网格号

根据WMO编码原则设立的各网格号

I4

I2

I1

8

时间

省略年月日后的时间

F5.2

9

观测层次数

该站有多少个实测层

I5

10

水深

测站处的水深

F7.1

11

水色

色级编码

I2

12

透明度

Secchidisk

I2

13

能见度

分0~9十个等级

I1

14

资料来源

本中心使用的缩略语

A4

WOD2

15

资料类型

由五个字母表示的资料类型

A2

SD2,XBT

格式例样3:

实测层信息

序号

名称

含义

长度

示例

1

层次

观测层的深度

F7.1

2

温度

该层的温度值

F8.3

3

盐度

该层的盐度值

F8.3

4

溶解氧

该层的溶解氧值

F8.3

5

密度

该层的密度值

F8.3

6

声速

该层的声速值

F8.3

7

硝酸盐

该层的硝酸盐值

F8.3

8

亚硝酸盐

该层的亚硝酸盐值

F8.3

9

硅酸盐

该层的硅酸盐值

F8.3

10

磷酸盐

该层的磷酸盐值

F8.3

11

pH值

该层的pH值

F8.3

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2