数据中心系统应用功能设计开发方案及实施方案.docx
《数据中心系统应用功能设计开发方案及实施方案.docx》由会员分享,可在线阅读,更多相关《数据中心系统应用功能设计开发方案及实施方案.docx(30页珍藏版)》请在冰点文库上搜索。
数据中心系统应用功能设计开发方案及实施方案
数据中心系统应用功能设计开发方案及实施方案
金信工程数据中心系统由五大功能构成:
数据采集整合、数据治理、数据共享交换、数据应用服务、数据运行维护。
数据采集整合主要包括数据接收、数据抽取、数据转换、数据载入功能;
数据治理维护主要包括检查规则配置、数据质量检查、检查结果管理、合标性检查、一致性检查、数据治理报告功能;
数据共享交换主要包括基本接口服务、服务对象管理、服务内容管理、服务发布管理、交换服务管理功能;
数据应用服务主要包括通用查询、高级查询、查询结构展示、常规报表、灵活报表、全文检索功能;
数据运行维护主要包括基础配置管理、数据标准管理、转换映射管理、数据情况统计、元数据管理、运行调度管理、数据应用配置功能。
1.1.数据采集整合子系统
数据采集整合将从深圳市市场监督管理局的各个业务系统采集数据,并对数据进行清洗与整合,按照信息化标准规范化数据格式存储于市局数据中心数据库。
数据采集是数据中心对数据抽取的基础操作。
数据采集模块可链接各业务系统数据库,通过设置采集频率和采集方式,配置存储位置,定时获得各业务数据的增量数据,并经过数据的校验与审核,获得正确、规范的业务数据。
数据整合是对进入数据中心采集库的数据进行匹配、转换、整合等工作。
按照市场监督管理业务的规则,对跨表、跨业务主题具有逻辑关系的数据进行清洗和验证,清楚修正冗余错误数据;按照数据中心系统的数据库设计,转换和整合业务数据格式,按照总局数据标准进行存储。
进入数据中心且完成整合的数据可直接用于对用户或各业务系统提供数据服务。
1.1.1.数据接收
数据接收功能是通过部署配置数据库接收软件,接收来自外部数据交换库交换来的数据。
通过数据接收设置,设置数据的接收方式以及数据接收后的存储空间和格式。
根据源数据的格式和内容,对交换来的数据进行筛选、转换、匹配,形成数据中心格式的数据库。
数据接收功能包括数据接收方式设置与数据接收反馈。
1.1.1.1.数据接收方式设置
数据中心交换数据分为结构化数据和非结构化数据,接收方式设置可分别设置数据接收方式和数据接收存储位置等。
1.1.1.2.数据接收反馈
将数据接收的结果进行反馈。
1.1.2.数据抽取
数据抽取功能是对数据中心抽取所需的源数据表、抽取频率、抽取方式、抽取时间等各种参数的设置。
对于通过校验审核的采集数据,由抽取加载功能加载进入数据中心交换数据库存储。
由于市场监督管理系统数据量巨大,数据中心在抽取数据时必然会影响业务系统的读写速度,为了使数据中心的数据与业务系统同步,同时尽量减少数据中心数据抽取对业务系统的影响,数据中心采用数据增量的数据抽取方式。
增量传输提供高效数据传输模式,通过对业务数据操作时间(即业务时间戳)的比对,获取最新增量的业务数据,实现数据增量分离,减少源数据库的读取次数,从而减少数据中心抽取数据对各业务系统的影响。
1.1.2.1.数据抽取数据源设置
数据抽取数据源设置是在连接到源数据后,对源数据中的数据内容进行选择的操作。
由于源数据为业务数据,其中包含有大量系统表,临时表、与业务无关的辅助类表等,这类表不属于数据中心抽取范围。
数据源设置是对数据源进行选择确认哪些表的数据需要抽取,哪些不需要抽取。
1.1.2.2.数据抽取方式设置
数据抽取方式分为全量抽取和增量抽取两种方式。
由于数据抽取会占用业务数据库的读写操作,为了减少数据中心抽取数据对业务系统的影响,对于更新频率较高的数据易采用增量抽取。
对于必须使用全量抽取的业务数据,则需要安排在非工作时间抽取,尽可能的减少抽取数据对业务系统的影响。
1.1.2.3.数据抽取频率设置
根据数据的重要性,不同业务主体的数据对数据更新要求各不相同。
如:
主体数据为工商主要数据,且其他业务数据需要主体数据及时性要求较高,因此主体数据的抽取频率要求高。
数据抽取频率设置是根据不同需求,设定数据抽取的频率
1.1.2.4.数据抽取时间设置
由于数据增量发生在工作时间,因此对于增量抽取的业务数据,通过抽取时间设置,系统在工作时间进行增量抽取,非工作时间则不进行数据抽取。
对于全量抽取的业务数据,设定抽取时间,可定时自动实现数据抽取。
1.1.2.5.数据抽取结果反馈
数据抽取结果反馈是对数据抽取结果进行归档并展示。
对于数据抽取未出错的数据提示数据抽取成功。
对于数据抽取出错的提醒相关人员抽取出错,并将抽取系统的出错日志进行展示,方便工作人员进行错误查找。
1.1.3.数据转换
数据转换的任务主要是通过校验、清洗、匹配、整合、转换源数据,使其以数据中心的格式和规则存储如数据中心中心库。
数据的转换包括以下部分:
1、数据校验:
数据校验是数据在源数据库抽取到采集数据库时进行的校验与审核。
按照数据采集约定的数据格式、数据内容进行校验,对于不符合要求的数据,输出到错误库并产生详细的出错记录,错误数据和错误日志将返还数据提供方,协助数据提供方分析修改数据。
对于数据质量未达到校验最低标准的数据,要求数据提供方重新发送数据。
数据校验与审核功能主要是针对单字段、单表或单业务主题的简单验证和检验。
2、数据清洗:
数据清洗过程是在采集库到中心数据库过程中,对遗漏、错误、不一致等各种数据进行数据验证清理,保证数据的正确性、一致性和唯一性。
数据清洗是按照市场监督管理数据固有逻辑和关系,对跨业务主体、跨数据表之间,有业务逻辑的数据进行的清洗。
数据清洗的内容主要包括三个方面:
Ø不完整的数据,其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。
需要将这一类数据过滤出来。
Ø错误的数据,产生原因是业务系统不够健全,在接收输入后没有进行必要的逻辑判断直接写入后台数据库造成的,比如发现注册号不同而企业名称相同的记录数据、提交材料不全而年检结果为通过的数据、各业务系统之间注册号相同而名称不同等。
这类问题通过数据关联和数据边界设定进行发现和筛选。
Ø数据的缺失和重复,按一定规则对重复数据、缺失数据进行发现和处理。
例如出现登记库存在的企业在名称库中无名称核准信息的缺失数据,多条记录主要字段相同而部分字段不一致的重复数据等。
对每类问题,系统将有针对性的清洗规则进行侦别归纳分析,所有问题数据都应形成错误数据报告,并根据需要反馈给数据提供者。
清洗规则库可以动态配置扩展。
3、数据匹配功能:
数据匹配功能是根据市场监督管理业务的逻辑联系,对其他部门采集业务数据与市场监督管理主体登记信息进行匹配,匹配成功的数据进行整合归并操作;否则根据配置设置确定数据是否进入中心数据库,并反馈相关情况给数据源部门。
根据市场监督管理业务的特殊性,如部分案件或消保信息由于主体没有在深圳登记或备案,则无法与主体信息进行匹配。
但这类数据是正确数据,需要进入中心数据库。
4、数据转换功能:
数据转换功能是将采集数据与中心数据库表结构、编码内容不一致的数据进行字段映射、编码转换和一些特定字段的计算填充等操作。
数据转换功能将读取运行管理系统中相应的参数配置进行工作。
1.1.3.1.数据校验规则管理
数据校验是对抽取数据进行校验。
由于抽取的数据分为结构化数据和非结构化数据,因此校验的内容各不相同。
对于结构化数据库的校验,是根据用户业务需求,对所抽取的数据中的数据的类型、字段、长度、是否可为空等进行校验。
数据校验配置就是对需要检验的数据表、数据字段和检验方式进行配置。
数据校验是对单表或两表之间的简单数据检验。
对于非结构化的数据,则首先对数据文件的完整性进行校验,然后对数据的类型、字段、长度、是否可为空等进行校验,数据校验配置是对需要检验的文件、文件的类型、文件的完整性、文件中的字段、字段的合规性的进行的配置。
根据需要,可对已配置完成校验规则进行配置、查询、修改或删除等操作。
对于正在使用的校验规则,不可进行修改或删除操作。
1.1.3.2.数据清洗规则管理
数据清洗规则配置是根据数据出错的三方面因素,对抽取的各业务系统的业务数据进行整体、全面的梳理工作。
数据清洗规则配置包括:
选择数据配置的数据源,选择配置的数据表,选择关联的数据表,选择数据字段和关联字段,选择校验规则方式,选择校验条件,生成预览结果,保存数据清洗规则,启用停用清洗规则,修改数据规则,删除清洗规则等。
根据需要,可对已配置完成清洗规则进行配置、查询、修改或删除等操作。
对于正在使用的清洗规则,不可进行修改或删除操作。
1.1.3.3.数据匹配规则管理
数据匹配是将全工商、质监、知识产权局的各业务系统数据进行有机的关联,如将监管、案件、消保等数据与主体信息进行关联。
数据匹配规则是指设定关联字段如注册号、企业名称等。
根据匹配规则,系统自动将各业务系统数据表中的数据进行关联,在进行查询服务时,可将主体所有的相关信息进行展示。
根据需要,可对已配置完成匹配规则进行配置、查询、修改或删除等操作。
对于正在使用的匹配规则,不可进行修改或删除操作。
1.1.3.4.数据整合规则管理
数据整合是指按照数据中心数据结构将各业务系统的数据进行重新整理合并,使整个工商、质监、知识产权数据更加合理、紧凑。
数据整合规则是对数据整合的规则进行配置,内容包括:
数据中心表名称,源数据名称,数据中心字段名称,源数据字段名称,整合规则等。
根据需要,可对已设置完成的数据整合规则进行配置、查询、修改或删除等操作。
对于正在使用的数据整合规则,不可进行修改或删除操作。
1.1.3.5.数据转换规则管理
数据转换规则是数据比对表,将源数据中需要转化的数据按照表中的对应关系,转化为数据中心所需的数据内容。
数据转规则的内容包括:
源表,源表字段,数据中心表,数据中心表字段,数据对应规则等。
根据需要,可对已设置完成的数据转换规则进行配置、查询、修改或删除等操作。
对于正在使用的数据转换规则,不可进行修改或删除操作。
可根据需要启用或停用配置完成的数据转换规则。
1.1.3.6.数据转换结果反馈
对转换结果进行展示,转换信息反馈内容包括:
转换的源数据,转换目标数据,转换规则,转换条数等。
1.1.4.数据载入
数据载入功能是将转换完成的,符合数据中心标准的,无冗余干净的规范的数据存入数据中心的中心数据库。
数据载入包括数据载入与载入结果监控反馈等功能。
1.1.4.1.数据载入
将规范化、标准化的数据存入数据中心中心库。
根据数据载入规则设置,对于符合规则的自动进行数据重新载入,对与超过载入次数的错误,提示用户。
1.1.4.2.载入结果反馈
对数据载入结果进行展示,载入信息反馈内容包括:
是否出错,存入数据中心数据条数,源数据条数等。
1.2.数据治理子系统
数据的质量直接关系到其能否真实的反应业务信息原貌,高质量的数据是日常业务处理和领导做出正确决策的必要保障。
数据治理子系统通过数据质量检测、数据纠错与通报、数据纠正处理等方式,实现对市场监督管理数据进行检测,保证市场监督管理数据的质量。
数据治理可实现数据质量流程可视化,对中心数据库数据进行质量评估,根据市场监管业务数据规则、特性,判定数据完整性、规范有效性、计算逻辑正确性、一致性等,甄别数据质量,形成数据质量评估报告,为数据采集转换、统计分析和数据修正提供依据。
1.2.1.检查规则配置
数据质量检查包括二个层次。
一是,依据数据标准对数据项做相关质量检查,从标准项属性和基础代码集两个方面,自动生成检查规则;二是,依据业务逻辑规则或约定俗成的业务要求对数据内容做相关质量检查。
检查规则定义流程如下:
按照数据完整性、准确性、冗余性、关联性等业务规则对待查数据项定义检查规则,系统对定义好的规则进行测试,如果检测到业务规则定义不正确进行提示修改,要求办理人员重新修改数据检查规则。
检查规则验证成功后生成规则描述文件,系统提供对业务检查规则的图形化展示,并把生成好的业务规则保存到规则库。
检查规则配置利用系统保存的物理表集信息,提供对单个数据源的单表或跨表的规则配置,对多个数据源的跨表规则配置。
提供多种配置类型选择。
配置类型包括但不限于:
数据完整性、准确性、数据字典完备性、逻辑计算一致性和特定格式规则(如身份证号、邮件等)。
提供向导式的简单规则配置功能,除系统自动生成的检查规则外,允许自定义检查规则,允许人工修改所有检查配置规则。
提供配置规则预览功能、预执行功能和规则脚本校验功能,保证规则的正确性和控制返回结果的数量。
1.2.1.1.向导式检查规则配置
系统提供向导式检查规则配置功能,用户选择需定义的业务类型、业务数据,检查规则类型:
数据完整性、准确性、数据字典完备性、逻辑计算一致性和特定格式规则(如身份证号、邮件等)。
系统提供按照业务类型检索符合要求的数据项。
用户可在检查规则类型中进行多选,并定义每一种检查规则类型的检查规则内容。
1、完整性,数据内容不为空;例如:
企业名称、地址
2、准确性,例如:
邮政编码为6位,组织机构代码为9位
3、数据字典完备性,例如:
行业类别代码符合国标代码;企业分类代码符合总局代码规范
4、逻辑计算一致性,例如:
各投资人的投资额之和与总投资额相等
5、特定格式规则,例如:
身份证号码15位或18位,邮件地址中含有“@”字符等。
同一数据项可定义多个检查规则。
1.2.1.2.自定义检查规则配置
除了向导式配置可定义的检查规则外,用户还可自定义数据项的检查规则。
系统提供检查类型的选择,用户可输入检查内容、定义检查公式。
系统提供对多个数据项之间的关联关系的检查规则的配置管理。
包括:
企业经营期限的起始日期必须小于结束日期;
1.2.1.3.检查规则修改
系统提供用户可修改自己定义的检查规则的功能。
系统对修改情况进行记录,包括修改前的检查规则和修改后的检查规则。
1.2.1.4.检查规则预览
系统提供用户预览检查规则的功能。
用户可根据业务范围、应用系统、检查类型等条件进行查询,预览相关的数据项的检查规则。
1.2.1.5.检查规则预执行
提供检查规则预执行功能,对检查规则覆盖的数据项的数据质量情况进行预先检查,获知执行结果。
保证配置规则的合理性和检查结果的正确性。
1.2.1.6.检查规则脚本校验
根据已定义的检查规则,系统自动生成检查脚本,并提供校验功能。
用户可根据检查规则输入不合格项与合格项,系统执行校验操作,仅针对测试输入项进行校验,并反馈检查结果,用户可通过检查结果的内容,判断检查规则的脚本配置是否正确。
1.2.2.合标性检查
标准符合性检查是指对业务系统各物理表和其中的相关字段,与各级标准规范的符合性进行检查。
合标性检查包括合标性规则管理、合标性检查、检查结果查询等功能。
1.2.2.1.合标性规则管理
系统提供用户对业务系统各物理表和字段的合标性规则的管理。
用户可对物理表中的每一个字段进行合标性规则管理,或者对同类字段进行批量标注,系统提供对每个字段定义多个合标性检查规则,检查规则内容包括标准规范名称、检查类型、确保数据项符合各级标准规范的要求。
1.2.2.2.合标性检查
根据合标性规则,执行合标性检查。
可定期执行或根据需要人工执行。
系统按照预定义的检查结果要求,反馈检查结果。
1.2.2.3.检查结果查询
系统提供根据业务类型、业务系统、物理表名称、字段进行合标性检查结果的查询。
查询结果包括合标性检查结果(合格、不合格),不合格数据量,业务分部情况等。
系统提供查询结果打印功能。
1.2.3.数据质量检查
数据质量检查功能提供单个、多个或批量的检查规则执行和处理功能。
1.2.3.1.业务数据质量日常检查
针对日常性的专项业务主题检查工作。
例如:
本月新开企业的登记数据检查。
系统提供设定数据检查的期限和执行期限功能,提供利用检查规则中某时间类型数据项进行分期执行的功能。
系统可对企业设立日期、案件结案日期、日常监管检查日期等事件类型的数据项进行预先设定。
检查任务可按照这类数据进行自动分期执行,避免对大批量数据进行集中检查,造成数据库服务器的性能降低。
1.2.3.2.业务数据质量特定检查
针对突发性、特殊性的数据质量检查工作,提供利用检查规则、检查对象、检查范围(按区县、分局)等属性灵活进行质量检查功能。
用户通过数据内容进行筛选,可确定数据质量检查的范围;通过提供的视图功能,可对这部分业务数据内容进行预览,启动执行检查任务。
系统还提供待查数据导入功能,由用户输入或导入待检查的数据表,提供用户根据输入或者导入的数据表的主键字段(如企业注册号等)进行单条或者逐条检查功能。
1.2.3.3.检查执行进度报告
在检查执行过程中,系统提供显示具体的执行进度,包括执行需要的时间、已执行的时间、总体进度占比情况;
检查执行完毕后,系统提供执行结果、执行发现问题数量和总检查遍历数据数量等情况报告。
用户可根据检查问题,回溯问题数据的清单,清单内容包括主键字段数据值、问题数据值,系统提供用户下载。
1.2.4.一致性检查
一致性检查功能是对各业务系统的数据库结构设计进行检查的功能。
目的在于检查并确保各业务系统涉及的设计档案、元数据描述与真实运行环境一致。
一致性检查的具体功能包括:
一致性检查配置管理、一致性检查、检查结果查询等功能。
1.2.4.1.一致性检查配置管理
提供对各业务系统所使用的数据库表结构的设计文档的一致性检查内容的配置管理功能。
包括对各项元数据的描述信息的管理。
并与库表结构进行配置。
系统提供一致性检查任务的执行频度设置,可定期执行或由人工触发执行。
1.2.4.2.一致性检查
系统自动检查元数据描述信息与实际物理表的详细比对情况,并记录比对结果。
1.2.4.3.检查结果查询
系统提供一致性检查任务的检查结果查询功能。
可根据业务系统、数据库表名称、检查日期等信息查询检查结果。
系统提供导出检查结果的功能。
导出文件的格式包括.xls,.txt等。
1.2.5.检查结果管理
检查结果管理包括数据检查执行结果查询、数据质量检查报告生成、检查规则例外标注、检查结果比对、检查情况统计等模块。
1.2.5.1.数据检查执行结果查询
数据检查执行结果查询提供分类查看、导出和保存数据检查执行结果。
可按照业务系统、检查类型、库表名称进行分类查看,系统显示查询结果,用户可选择查询结果中需要导出的内容,系统提供数据导出、文件保存的功能。
结果导出包括分类(如按业务系统、数据所属机构等)导出和整体导出数据检查结果。
结果导出形式包括Excel、Html和XML格式,导出的结果结构清晰,便于数据勘误人员阅读理解。
1.2.5.2.数据质量检查报告生成
系统提供数据质量检查报告模板预定义功能。
可按照模板内容自动生成基于检查结果的详细的数据质量检查报告。
提供检查报告下载、打印等功能。
1.2.5.3.检查规则例外标注
在数据检查结果中提供对例外情况的管理,对由于数据检查规则出现的特例情况提供人工进行标注,在后继的检查中不再校验已标注的例外情况,数据检查结果查询、检查报告生成也不再包括已标注的例外情况。
亦可取消对例外情况的标注。
1.2.5.4.检查结果比对
系统提供对多次数据检查结果的比对功能,对同一检查任务的不同时期的检查结果的情况进行比对,得出数据问题的总量、修改量、新增量、留存量和数据修补率的等比较数据,便于对数据修补的相关情况作出追踪和综合评价。
1.2.5.5.检查情况统计
检查情况统计提供对每次数据检查活动的情况或一段时期的数据检查活动的情况进行分类统计功能,并将对数据检查结果和具体情况以图表、表格等多种形式直观展示。
用户可选择图表展示方式。
检查结果统计也提供应用服务接口,供过数据中心系统的系统服务子系统的统计模块调用,提供数据质量检查相关的统计数据及图表。
1.2.6.数据治理报告
数据治理报告是用户可自行定制报告模板,并根据设定时间定时自动生成数据治理报告,并可以预览打印页面,报告的内容包括:
数据基本情况,数据检查结果分类描述,按规则分类描述,按业务系统分类描述,质量治理总结等。
1.1.1.1.1.数据治理报告模板自定义
用户可自定义数据治理报告模板,包括模板格式、模板内容;系统提供与数据治理报告相关的数据内容,供用户选取。
系统按照用户定义的模板,自动生成模板文件,供生成数据治理报告时系统调用。
用户也可选取已定义的数据治理报告模板,进行内容调整。
或者取消已定义的数据治理报告模板。
1.1.1.1.2.数据治理报告自动生成
系统根据设定时间定时自动生成数据治理报告,并可以预览打印页面,报告的内容包括:
数据基本情况,数据检查结果分类描述,按规则分类描述,按业务系统分类描述,质量治理总结等。
1.1.1.1.3.数据治理报告查询
用户可按照时间、业务系统对数据治理报告进行分类查询。
并选择某次数据治理报告,查看详细信息。
1.3.数据共享交换子系统
数据共享通过标准、统一的数据服务接口,向各业务处室提供全面、一致、正确的业务数据综合共享服务,为各业务系统提供数据共享的公共支撑和共享服务。
数据交换指通过数据交换平台标准、统一的数据交换接口,与省局以及市相关委办局进行相关业务的数据交换。
数据共享交换是数据中心对外交换数据和提供服务的接口,实现了对数据交换服务内容、发布策略、交换形式、访问控制及审计的管理。
对实时性要求高的交换需求以业务系统的对外接口或以生产库的直接调用方式开放实现,但要纳入交换平台的统一管理,例如,统一技术规范,统一申请、审批、授权、发布;对于实时性要求不高的交换需求由数据共享交换平台基于共享主题库统一实现。
1.3.1.基本接口服务
基本接口服务是根据交换服务管理内容中配置的内容,进行数据交换。
根据要求,交换接口分为标准通用形式和特殊接口。
对于标准通用形式,数据管理人员可依据交换需求配置;对于特殊的交换接口需求,可以由开发技术人员针对不同用户的数据交换服务需求,定制专属的交换平台,提供多种形式的数据交换接口服务。
基本接口服务引擎具有标准性、通用性、统一性、灵活操作性。
通用的交换接口可以由数据管理员通过配置完成,也可由交换对象管理功能绑定交换用户和交换策略后,激活调用。
接口至少应支持以下三种形式:
1.3.1.1.数据库交换接口
数据库交换接口可以支持多种主流数据库管理系统(如:
ORACLE、DB2、SQLSERVER、SYBASE、ACCESS、FOXBASE等),可以将交换策略定制的数据集合增量或全量的推送到指定的数据交换前置服务器上。
1.3.1.2.文件交换接口
文件交换接口支持XML格式和带分隔符的纯文本文件格式等交换形式,可以将交换策略定制的数据集合按格式要求生成交换文件,推送到指定的数据交换前置服务器的共享目录中。
1.3.1.3.WEB服务交换接口
WEB服务交换接口可以将交换策略定制的数据集合按标准格式要求生成WebServices服务,在指定的服务器进行发布。
同时也可以调用相关数据交换部门发布的WebServices服务,提交需交换的数据集合。
1.3.2.服务对象管理
服务对象管理指设置数据交换服务的用户,可以进行用户的添加、修改和删除以及用户权限、策略的设置,绑定数据服务接口。
服务对象管理设置数据交换的用户,例如省局,然后为该用户设置权限、绑定交换策略和交换服务接口,由数据管理人员操作使用。
1.3.2.1.服务对象用户新增
提供对服务对象用户的新增功能。
服务对象包括数据交换服务对象、数据交换对象。
提供输入单位名称、联系方式、联系人、用户名分配等。
1.3.2.2.服务对象用户维护
提供对服务对象用户信息的维护功能。
可修改内容包括单位名称、联系方式、联系人等。
也可删除用户信息。
1.3.2.3.服务对象授权管理
提供对服务对象的授权管理,包括授权、取消权限。
绑定交换策略,以及数据服务接口。
供管理人员操作使用