科学数据出版应用实践-中国科研信息化资料下载.pdf

上传人:wj 文档编号:5972252 上传时间:2023-05-05 格式:PDF 页数:18 大小:1.03MB
下载 相关 举报
科学数据出版应用实践-中国科研信息化资料下载.pdf_第1页
第1页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第2页
第2页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第3页
第3页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第4页
第4页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第5页
第5页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第6页
第6页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第7页
第7页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第8页
第8页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第9页
第9页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第10页
第10页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第11页
第11页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第12页
第12页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第13页
第13页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第14页
第14页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第15页
第15页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第16页
第16页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第17页
第17页 / 共18页
科学数据出版应用实践-中国科研信息化资料下载.pdf_第18页
第18页 / 共18页
亲,该文档总共18页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

科学数据出版应用实践-中国科研信息化资料下载.pdf

《科学数据出版应用实践-中国科研信息化资料下载.pdf》由会员分享,可在线阅读,更多相关《科学数据出版应用实践-中国科研信息化资料下载.pdf(18页珍藏版)》请在冰点文库上搜索。

科学数据出版应用实践-中国科研信息化资料下载.pdf

当前,科学数据出版主要有独立数据出版(StandaloneDataPublication)、学术论文辅助数据出版(DataPublicationbyProxy)、附录数据出版(AppendixData)、期刊数据档案出版(JournalDrivenDataArchival)以及数据论文出版(Overlaypublication)等五种模式。

以数据论文(DataPaper)的方式出版科学数据,可规范数据引用并对其进行跟踪统计与分析,很好地解决了传统科学数据共享中存在的科研激励机制、知识产权模糊、数字资源标识等核心问题。

所谓数据论文,是指“对特定在线数据集进行描述、按照一定学术规范出版并可被检索的元数据文件”7,目标是提供“数据内容、数据位置和数据来源信息”8,“主要描述相关数据集的数据收集方法、特征描述,获取方式和潜在重用性,而不强调数据的处理和分析过程”9。

Nature认为数据论文作为一种开放访问并经过同行评议的新型出版物,对具有科学价值的数据集进行描述,结合传统期刊论文内容和结构化描述模式,使数据更具发现性、引用性、解释性和重用性。

10本文将在综述科学数据出版国内外现状的基础上,重点介绍科学数据出版研究中对科学数据出版流程、标准体系、出版系统和长期存储等内容的系统探索,特别是创刊中国科学数据的实践,以及面向未来数据出版全面发展的生态系统构建的思考。

1.2国内国内外现状外现状2013年以来,国内诸多学者对Ecologicalarchives、EarthSystemScienceData、BiodiversityDataJournal、NatureScientificData等的数据出版实践进行了多维度的研究,诸如吴立宗从学术出版界、科学数据共享界的角度分析国际科学数据出版现状5,刘凤红等从数据论文及其相关概念、数据论文的出版实践等方面探讨了国际上数据出版的种类和数据出版的关键问题:

出版流程、质量控制和权3益管理11,傅天珍等重点分析了我国现有期刊的数据出版及其政策的现状12,雷秋雨等在分析现有数据期刊出版模式等现状的基础上探讨了未来发展趋势13,欧阳峥峥等从学科属性、出版方式、收录内容要求、引用机制、版权协议、费用等方面深入分析了国际上15种重要数据期刊的现状14,张静蓓等详细探讨了现有数据出版模式及其引用策略15,高雅等以Nature出版集团的ENCODE项目为例探讨了基于数据挖掘和可视化等新技术的科学数据出版的模式创新16,张小强等采用定性方法厘清数据出版涉及的关键问题:

伦理规范、用稿机制规范、数据引用规范和元数据标准等17,李小燕等通过分析数据出版相关环节、利益主体、发展现状与存在问题等明确了数据出版是未来科研成果出版的重要组成部分和发展趋势18。

可见,我国学者对数据出版的研究已经相当的全面和深入。

前述研究中部分文章提及应尽快将数据论文纳入科研成果评价体系的建议5,12,14-15,17-18,希望藉此根本上激发科研人员的数据共享和出版的积极性,促进科学数据出版的繁荣发展。

鉴于数据出版在我国还是比较创新的工作,数据论文纳入科研成果评价体系可能还需要时间,但国外已发表的数据论文已经有了很好的使用情况,如Ecologicalarchives刊发文章为例:

PanTHERIA:

aspecies-leveldatabaseoflifehistory,ecology,andgeographyofextantandrecentlyextinctmammals,被引用次数:

3441BODYMASSOFLATEQUATERNARYMAMMALS,被引用次数:

240上述两篇数据论文被引用频次之高,充分说明了国外学术界同仁对数据论文的高度认可。

而世界顶级学术期刊Nature于2014年正式发布ScientificData专刊,也充分说明了学术出版界对数据论文的认可。

2014年底,中国科学院心理研究所左西年研究员在Nature旗下数据期刊ScientificData发表数据论文“Anopenscienceresourceforestablishingreliabilityandreproducibilityinfunctionalconnectomics”2,开启了我国科学家在顶级学术期刊数据专刊发表论文的先河,这也充分说明了我国科学家对数据出版工作的高度认同,以及未来能够纳入科研评价体系的乐观态度和高度信心。

截止2015年11月,我国科学家作为第一作者已经在NatureScientificData发表数据论文5篇。

1.3科学科学数据出版数据出版国内外数据出版的研究表明,科学数据出版是一个复杂的系统工程,既有传统学术出版的特点,同时还有数据发布且与数据论文关联等带来的新需求。

基于广泛而深入的研究,以及我国当前科学数据出版的认识及实施可行探索,中国科学院计算机网络信息中心科学数据出版团队提出了国内科学数据出版的体系框架,主要包括明确出版流程、建立标准体系、构建出版系统、创立数据存储库等四个方面的内容,示意图1-1。

12015年11月3日,googlescholar查询得到。

下同。

2http:

/4图1-1科学数据出版体系架构示意图科学数据出版与传统学术文献出版具有明确的不同,所以其出版流程将在借鉴传统出版流程基础上,针对科学数据出版及数据论文的特点,确定科学数据出版过程中数据及其论文的出版流程,特别是其间相互关系的明确与呈现,以及数据加工、数据整理、数据发布、数据评价、数据引用等关键环节。

作为创新的共享模式,科学数据出版需要面向未来科学数据出版生态环境的建设培育发展支撑标准体系,主要涉及数据论文模板、数据资源(特别是质量)、元数据、数据或其论文的开放获取等,籍此实现资源(数据实体、数据论文等)描述、展示、访问、应用等方面的标准化,支持科学数据出版的规模化发展和高效应用。

构建数据出版系统和存储库,面向未来科学数据出版生态环境的建设确立数据论文发布和数据存储分离模式,分别建立支撑学术刊物/数据刊物等的发布与共享平台和支持科研数据开放共享的公共存储库,并探索公共存储中的数据和在线数据论文的联动方式,支撑未来科学数据生态环境的复杂性和多样性。

1.3.1出版流程科学数据出版既不同于传统学术论文出版,也不是简单的数据发布5,而是具有自身典型特征的新出版模式,特别是融入了数据对象的提交以及相应的数据注释与整编等工作。

科学数据出版的一般流程主要包括数据论文的提交与评审,数据资源的提交、评审与标注,数据论文与数据资源的关联,数据及其论文发表等等几个主要环节。

科学数据出版的流程如图1-2所示。

科学数据出版出版流程标准体系出版系统存储库5图1-2科学数据出版流程图1.数据论文和数据集提交作者按照论文模板等标准要求完成数据论文撰写和数据整理以后,在线提交必要的数据论文描述信息和数据集描述信息,按照既定的格式提交到期刊平台。

提交论文及其数据之前,作者应对论文及数据的知识产权、隐私保护等进行必要的核定,以满足国家相关法律法规的要求。

2.同行评议期刊平台收到作者提交的论文及其数据后,组织编辑初审,通过初审者将进入同行评议过程,专家需要对数据论文和数据集进行全面的评估,并给予评审意见。

在科学数据出版中,数据质量评议是难点。

数据质量评审多数情况并不能通过专家的简单浏览查看就能确认其质量,还需要大量的应用和检验。

因此,对于科学数据出版而言,数据审核主要包括:

数据发布前的同行审议,重点从数据完整性角度审核与数据相关的各种信息是否完整,是否能够让用户正确使用数据;

数据使用后的用户反馈,要有效收集数据的使用信息以及用户的评价信息,为其他用户使用该数据提供更多的信息。

3.数据整理数据论文接收之后,数据期刊应组织数据治理专家按照规范出版的方式对质量进行核定与把关,以及注释与整编数据,保证数据可读性和完整性,必要时需要多次与数据提交人乃至学科领域专家、审稿专家等进行多次的深入交流,最大程度保证数据的质量,以及可访问性、易用性和友好性等。

完成数据整理后,应对数据集进行唯一标识,便于发现和使用数据。

64.数据发布数据发布是指作者(数据拥有者)将数据公布在其他用户可访问的公共数据平台的过程,这种公共平台要求有永久的数据保存能力。

在科学数据出版过程中,数据论文和数据同时正式出版,并发布数据论文和数据的独立引用方式,可被公开获取并引用。

数据发布可以通过出版商和科学数据中心等两种平台进行,与文章密切相关的数据可优先通过出版商发布,其他数据可通过科学数据中心发布。

5.数据引用数据引用是数据出版系统中的重要环节,理想的数据引用是指与传统文献引用方式一样,在文章参考文献部分对数据进行引用。

科学数据出版利用引用数据论文的方式实现对数据的引用。

数据引用的另一种方式是基于标识的数据对象直接引用,本团队承担的国家标准化管理委员会国家标准研制任务科学数据引用(国家标准制定计划项目编号依次为20141194-T-469),该标准完成后将为数据引用提供标准化的格式。

在推进和落实科学数据引用过程中需要多方的参与:

出版商允许和鼓励对数据论文的引用,数据中心应提供规范化的数据引用格式,评审专家在审稿过程中应严格要求作者对相关数据进行引用和说明。

1.3.2标准体系由于科学数据结构内容的复杂性以及出版模式、出版格式的多样性,构建标准体系对科学数据论文及数据的提交、组织、存储、检索尤为重要。

科学数据出版标准化的对象包括数据论文模板、数据资源元数据、数据或其论文的开放获取方式等,籍此实现资源(数据实体、数据论文等)描述、展示、访问、应用等方面的标准化,支持科学数据出版的规模化发展和高效应用。

基于实用性、前瞻性、一致性等原则,研制了包含数据论文注册元数据、数据论文细览元数据、数据集注册元数据、数据集细览元数据、数据论文模板信息等内容的科学数据出版标准体系,如图1-3所示。

7图1-3科学数据出版标准体系框架数据论文注册元数据指作者在提交数据论文时需要明确的信息,便于在线获取论文概要内容,并且实现快速检索,包括标题摘要、作者信息、分类名称和文件信息等。

详见表1-1。

表1-1数据论文注册元数据序号分类名称要素名称1标题摘要标题2摘要3作者信息作者姓名4通讯作者5邮件6第一作者所属机构7资助情况8分类名称学科分类9文件信息文件类型(图、表、补充材料等)10文件描述(根据类型,输入编号、图题、描述信息等)11文件名称数据论文细览元数据指在线出版的论文页面应当包括的要素信息,主要包括内容描述、出版信息、增值信息、下载内容、相关文章、评论信息等。

见表1-2。

表1-2数据论文细览元数据序号分类名称要素名称1内容描述标题2摘要3作者姓名4单位5正文内容6出版信息出版时间87出版信息(卷号)8数据论文引用方式9数据集标示符10增值信息论文下载次数11网页访问次数12最后更新时间13下载内容数据论文下载链接14数据下载15相关文章作者发表相关文章16参考文献17学科相关文章18评论信息用户评论数据集注册元数据指作者在线提交数据时需要明确的信息,便于编辑部获取数据概要内容,并且实现快速检索。

表1-3数据集注册元数据序号分类名称要素名称1数据文件上传文件2数据文件描述标题3作者4关键词5学科分类数据集细览元数据指在线出版的数据需提供的信息,包括数据集内容和描述、增值信息、文件信息、引用信息、许可信息等内容。

见表1-4。

表1-4数据集细览元数据序号名称要素名称1数据集内容和描述数据集标题2作者3摘要4关键词5发布日期6发表期刊7基金支持8增值信息关联子数据9关联父数据10访问次数11下载次数12文件信息文件大小13文件链接14引用信息引用方式915许可信息许可证数据论文作为提升数据成果、增加数据可读性的一种规范性表达,是科学数据出版的核心要素,须制定数据论文模板,规范数据描述要素及其内容。

与传统的学术论文不同,数据论文不包含新的科学假设,不强调新的科学发现,应当提供数据集的描述细节,包括数据收集和加工处理方法、数据质量评估和验证的方法、便于理解和使用数据的相关信息等。

1.3.3出版系统科学数据出版系统作为承载科学数据出版的平台,遵循并落实前文所述的出版流程和标准体系架构,以保证数据论文的科学质量并推动科学数据的共享与重用。

科学数据出版系统在继承传统出版系统优势的同时,也具有鲜明特点,主要包括出版内容与出版能力、数据论文的增值服务以及论文作者与读者的互动三个方面。

科学数据出版系统主要服务的出版对象是数据论文,这与传统的出版系统有很大的不同。

传统的科学出版系统面向科学论文,旨在发表创新的科学理论、科学假设或方法论;

数据论文则更侧重于对数据采集和处理、质量控制和评估,以及数据使用方法等方面的描述,结合数据集本身的元数据信息,最大限度地消除数据集重用过程中的阻碍。

同时,科学数据出版系统由相关的数据存储库提供数据出版支持,具有传统出版平台无法达到的出版能力。

数据集可以是由数据仓库维护,或是同一个期刊的编辑部,或者是从事专门的数据存储工作的第三方组织来统一管理。

同时,科学数据出版系统可为论文作者提供后续的增值服务,主要包括数据论文的浏览量、下载量、引用次数、相关作者论文、相关领域论文推荐、用户行为统计分析等,从而最大限度地实现数据重用和深度挖掘。

此外,科学数据出版系统为论文作者与读者之间提供了开放的沟通平台。

作者与读者的互动过程是公开透明的。

这种公开的交流方式,可以有效提升发表数据的可用性,读者的评价反馈信息,也利于数据论文质量本身的客观评估。

下面以中国科学数据为例,介绍科学数据出版系统的具体应用。

由中国科学院计算机网络信息中心主办的中国科学数据(ChineseScientificData,CSData,http:

/www.csdata.org)是基于上述理论模型搭建的科学数据出版平台。

CSData以数据论文为主要发表对象,包容传统出版系统的优势做法,存储和维护了数据论文的元数据信息。

其中,数据论文本身作为描述数据集的实体,与传统期刊的论文是一致的,元数据信息则作为附加信息以便于实现对原始对象的管理。

CSData将数据集的发表工作交由科学数据存储库(ScientificDataBank,SciDB,http:

/)进行,并支持数据论文对已发表在其他平台上数据集的引用和链接。

同时,CSData提供了包括论文的浏览、下载等统计信息的增值服务。

通过及时回馈这些统计数据,为作者的科研贡献提供凭10证。

此外,CSData在同行专家评议的过程中,提供了开放的讨论平台,使得同行专家的评审意见及作者的反馈信息公开透明,并允许读者对评审中的论文进行讨论和下载。

1.3.4数据存储库数据存储库的主要承担数据集的长期保藏和在线发布等任务。

作为科学数据出版的支撑,数据存储库通过数据论文实现与科学数据出版系统的无缝融合。

因此,一个具有可信度的、高质量的数据存储库才会被数据出版系统认可。

研究表明19,一个高质量的数据存储库需要具备以下一些特点:

首先,数据存储库需要是国际或是机构认可的可行的存储库;

其次,数据存储库必须保证数据集的长期可用性和永久的可获取性;

同时数据存储库中的数据集必须具有唯一标识符,以供数据论文进行引用,比如DOI;

此外,数据存储库中的数据集必须是免费的,并且数据的获取过程不存在任何障碍。

目前已有很多提供24*7小时服务的数据存储库,这里以中国科学院计算机网络信息中心开发运维的科学数据存储库(SciDB)为例进行介绍。

科学数据存储库为CSData指定的数据出版平台,是非盈利性的在线数据存储库。

SciDB致力于科学数据长期保藏和在线发布工作,旨在推动高质量的基础科研数据能得到长期、稳定的汇集、管理、共享和应用。

SciDB面向科研人员、项目团队、以及期刊或出版商等,通过提供一系列网站服务,使科研数据归档、获取、认证和引用变得简单。

SciDB收录出版与期刊论文相关联的数据、重大项目(国家项目、部委项目、973项目或863项目等)、以及科研团队的数据文件,包括原始数据集、软件脚本等相关材料;

提供明确的方案规范数据获取和引用,保护数据工作者的权益;

通过自由设置关键字,使数据具备更好的可发现性;

该存储库支持多格式、多领域数据集的出版;

此外,SciDB提供数据集元数据供第三方服务发现。

在数据集的增值服务上,SciDB也做了一些尝试和努力,如数据集的可视化服务、数据集的统计信息反馈等工作。

1.4中国中国科学数据科学数据中国科学数据(ChinaScientificData)是国家网络连续型出版物的首批试点刊物(国内统一连续出版物号CN11-6035/N),由中国科学院主管、中国科学院计算机网络信息中心主办,于2015年创刊。

作为目前国内唯一的专门面向多学科领域科学数据出版的学术期刊,该刊致力于科学数据的开放、共享和引用,推进科学数据的长期保存与数据资产管理,探索科学数据工作的有效评价机制,推动数据科学的发展。

中国科学数据在明确和保护贡献者权益的基础上致力于科学数据的快速出版与传播。

采用11国际通用的DOI对数据论文和数据集进行标识,建议遵循CreativeCommonsAttribution-Noncommercial4.0InternationalLicense发布数据及其论文。

中国科学数据重点关注生命科学与医学、地球系统科学、空间科学与天文学、物理学、化学化工、材料科学与工程、信息科学、社会科学等领域的基础数据及数据产品。

优先出版数据论文包括但不限于以下数据源:

(1)重大科研项目产生和获取的原始数据、基础数据和再加工的数据产品(如国家科技基础性工作专项、国家重大科技计划、中国科学院战略性科技先导专项、国家自然科学基金项目等);

(2)大科学装置和野外台站长期观测数据集以及系统整理的数据产品;

(3)国家科技基础条件平台、中国科学院信息化建设以及相关部门信息化建设过程中系统收集、整编形成的数据集;

(4)科研院所、高等院校等组织机构长期积累的优质科学数据资源;

(5)针对现有数据集及其应用,利用程序方法、加工整编形成的繁衍数据集等。

1.4.1概述1.出版流程中国科学数据主要在线发表数据论文,兼录少量高质量的评述型论文以及数据观点论文,暂不收录科学发现研究成果、数据质量与数据应用等方面的论文。

完整的数据论文出版应包括数据论文和对应数据集两部分,二者通过唯一标识符实现一致性关联,经同行专家评议保障数据的高质量与可读性。

可以通过发布的元数据信息获取概要内容,通过明确的方式对数据论文和数据集进行引用。

中国科学数据数据论文

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 环境科学食品科学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2