烟草行业数据综合分析应用解决方案Word格式文档下载.docx

资源描述

烟草行业数据综合分析应用解决方案Word格式文档下载.docx

《烟草行业数据综合分析应用解决方案Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《烟草行业数据综合分析应用解决方案Word格式文档下载.docx（26页珍藏版）》请在冰点文库上搜索。

烟草行业数据综合分析应用解决方案Word格式文档下载.docx

5.4.5、热点定制 25

5.4.6、连接资源管理 25

5.4.7、页面定制 26

5.4.8、用户及角色管理 26

六、系统价值 27

5.1、企业报表 27

5.2、主题分析 27

5.3、运营监控 28

七、成功案例 29

7.1、河北省省级卫生数据整合共享和综合信息管理平台 29

7.2、国药乐仁堂信息采集整合展现管理平台 32

八、公司及产品优势 37

8.1、公司优势 37

8.2、产品特色 37

一、建设背景

近几年，中国烟草行业信息化飞速发展，各个企业目前己经基本完成了基础设施建设和业务系统建设，如营销系统、专卖系统、物流系统、财务系统、0A系统等。

这些信息系统之间相对独立，缺乏有机联系，形成了信息孤岛，无法做到信息资源的共享，进而影响了许多正常业务的效率。

由于各单位前期在实施信息系统过程中分别采用了各自的系统标准，因而导致了现有各信息系统之间很难做到“无缝连接”，并且在各系统间存在大量的“手工连接”，进而造成大量的信息失真和信息延时，这种情况还对信息管理部门增加了很多工作量，每天为数据而忙碌。

同时各业务系统侧重于业务处理，不能进行充分的价值挖掘，缺乏为企业领导或业务处室的综合分析、宏观决策提供有力支持。

因此，在烟草企业数据综合分析应用系统的建设与完善就显得尤为重要。

二、建设思路

三、建设目标

通过建立烟草数据综合分析应用系统，实现收集目前的营销系统、专卖系统、物流系统、财务系统、0A系统等以及其他业务系统的相关数据，并对数据进行整合，加工形成涵盖管理、采购、客服、物流、质管、运营、财务七大领域的信息域，并对信息进行多维度的综合展现，提供各业务所需的综合报表，从而充分挖掘利用现有信息资源，为领导提供决策支持，并更好的为各业务科室和一线业务人员服务。

四、总体设计

4.1、设计原则

本项目在系统设计、软硬件采购、应用开发、系统集成和服务过程中应采用已有的国家标准、行业标准和主流国际标准，遵循但不仅限于下列标准体系和要求：

《烟草行业信息化标准体系》及其有关标准

《烟草行业信息化建设统一技术平台要求》

《烟草行业数字证书应用接口规范》

《烟草行业信息系统安全等级保护定级指南》

国家《SOA标准体系》

除了遵循上述标准，在整个项目设计开发过程中，需要遵守下面的5项原则。

1. 技术的先进性

系统应采用先进成熟的技术，以保证投资的有效性和延续性。

支持常用的操作系统平台、常用的数据库系统、常用的应用服务器平台和常用的开发工具，与XX烟草现有系统互联互通，以保证系统的兼容性。

2. 系统的稳定性

保证系统能够正常运作,系统应能够7×

24小时连续稳定工作。

软件版本升级或改进应在不影响业务的情况下进行，保证系统可以稳定、平滑过渡。

3. 系统可维护性

系统应能使系统管理员集中方便地配置、监视、控制、诊断整个系统，并且能够监视和控制用户情况、提高效率、消除隐患。

对于系统各功能模块的配置、控制、监视、诊断等工作能够通过专用的系统管理工具方便的进行，无须进行专门的编码工作。

数据中心系统将按照集中的模式进行部署，因此对系统处理并发任务的能力提出了很高的要求，投标方需要提供大规模并发流量的处理机制以及发生性能问题时的解决方案；

并提供实时交易量（并发交易量及其硬件配置）和并发用户量（并发用户数及硬件配置）的相关测试报告和案例说明；

4. 系统安全性

系统应保证信息的安全性，即保证此系统中的信息能够安全存储，并有良好的数据备份和快速恢复方案；

采用分级的安全体系，保证数据在处理和传输全过程的安全性。

系统支持对关键的信息（如：

用户密码）进行加密保存，同时支持对一些比较重要的业务数据在传送和存储过程中进行加密保护；

保证系统中的信息不被非授权用户访问，按组织结构划分操作人员的操作权限，使用烟草办公自动化系统的用户身份认证系统，且各种使用权限所能调用的应用软件模块可按要求灵活配置；

系统在身份认证方面支持多种的认证手段，如：

口令认证、数字证书认证等；

系统支持基于角色和基于资源的授权方式，支持用户到角色的映射，并采用角色的身份来控制对特定操作的访问权，支持层次化，结构化和区域化的角色设定；

系统需要有对系统数据的关键操作（如授权操作、流程环节变更）进行追踪和回溯的能力；

4.2、设计思路

1、模块化的系统结构

系统结构采用三层（3-tier）或多层（N-tier）设计模型；

设计模式为B/S模式。

由合理分划、边界清晰的子系统和模块组成，形成组装式、插件式的体系结构，以利于系统的升级、扩充和发展。

支持业务流程的可调整性；

支持业务信息的可调整性和延续性。

2、面向服务的整体架构（SOA）

系统模块都是向系统内部和外部提供服务的逻辑单元；

采用标准的协议提供服务。

采用松耦合的机制与外部系统进行信息交换和系统之间的互操作。

3、无缝集成的应用

提供与其他相关信息系统的数据接口、支持开放的XML标准接口规范。

不同的异构系统之间可以无缝地实现数据集成，也可以无缝地实现业务流程的集成。

4.3、总体架构

系统基于SOA设计理念，架构信息采集、整合、展现信息系统，为增值服务管理奠定总体架构基础，并以“服务”方式，扩展将来主题业务数据分析、服务系统。

五、系统实现

5.1、整合内容

数据来源主要为营销系统、专卖系统、物流系统、财务系统、0A系统以及其他业务系统。

5.2、采集处理方式

5.2.1、数据采集

5.2.1.1、功能设计

通过整合完善数据采集系统，更加高效的接收和处理来自各系统的数据，实现数据采集工作的灵活设置和快速部署，使数据采集工作更专业化和规范化，减轻数据提供单位的负担，提高数据采集效率和质量。

支持基于事件发生时接收数据消息、支持数据库改变时数据同步、支持定时提取数据、支持外部文件导入、支持异地全局数据库。

并且支持基于消息的数据传输，在前置机感知数据改变后，通过WebService机制项服务器传递消息；

支持通过各类数据传输中间件进行消息的传递。

数据采集方式包括：

自动采集、定时采集。

自动采集是指通过系统接口，自动实时从数据源采集数据，适用于实时性要求较高的数据信息。

定时采集是指在设定好的时间点对数据源数据进行采集，适用于数据源有规范的数据传输技术架构。

数据审核：

在数据加载到数据库前对采集的数据的格式及数据内容进行校验和审核，保证数据采集平台采集的数据质量。

自动采集：

支持自动采集和定时采集方式，实现采集系统自动获取数据源数据的功能。

数据加工处理：

包括数据信息清洗、信息转换、信息加载等功能，将从数据源获取过来的数据进行规范化处理，实现多源数据组合、冲突数据处理、数据格式检查等功能。

并将其转换成数据仓库需要的格式。

数据加载功能是将经过规范化处理后的数据存放到数据仓库中。

需要定义数据的加载频率和加载方式。

数据的加载频率根据数据的产生频率和数据仓库对数据的分析粒度决定，可以根据需要来定义加载的间隔。

采集平台系统功能结构如下图：

5.2.1.2、技术实现

1、技术架构

通过各种采集方式把现有各部门、企业的诸多系统通过数据交换平台抓取进入数据中心，并可以通过业务报表填报的功能补充信息，支持暴扣文档、多媒体、XML、文件以及数据库等多种方式的数据采集。

2、数据接口

本系统采集通过建立数据口的方式与现有的营销系统、专卖系统、物流系统、财务系统、0A系统以及其他业务系统进行数据采集，并将采集数据进行审核与加工处理。

与此同时考虑到与新系统的整合，系统将预留数据交互模块并建立数据交换机制，为新业务系统的接入提供准备。

5.2.2、数据整合

利用完善的ETL工具，通过节点控制库、信息共享与管理库把采集来的数据按照业务内在关联形成能够表述完整业务链信息的整合信息，并为下一步的数据应用打定基础。

5.2.2.1、技术架构

1、ETL工具介绍

ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

ETL是数据仓库中的非常重要的一环。

它是承前启后的必要的一步。

相对于关系数据库，数据仓库技术没有严格的数学理论基础，它更面向实际项目应用。

所以从项目应用的角度来考虑，按着物理数据模型的要求加载数据并对数据进行一些系列处理，处理过程与经验直接相关，同时这部分的工作直接关系数据仓库中数据的质量，从而影响到联机分析处理和数据挖掘的结果的质量。

ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。

而影响质量问题的原因有很多，由系统集成和历史数据造成的原因主要包括:

业务系统不同时期系统之间数据模型不一致；

业务系统不同时期业务过程有变化；

旧系统模块在运营、人事、财务、办公系统等相关信息的不一致；

遗留系统和新业务、管理系统数据集成不完备带来的不一致性。

实现ETL，首先要实现ETL转换的过程。

它可以集中地体现为以下几个方面：

空值处理：

可捕获字段空值，进行加载或替换为其他含义数据，并可根据字段空值实现分流加载到不同目标库。

规范化数据格式可实现字段格式约束定义，对于数据源中时间、数值、字符等数据，可自定义加载格式。

拆分数据：

依据业务需求对字段可进行分解。

验证数据正确性：

可利用Lookup及拆分功能进行数据验证。

数据替换：

对于因业务因素，可实现无效数据、缺失数据的替换。

Lookup查获丢失数据Lookup实现子查询，并返回用其他手段获取的缺失字段，保证字段完整性。

建立ETL过程的主外键约束对无依赖性的非法数据，可替换或导出到错误数据文件中，保证主键唯一记录的加载。

2、整体结构

系统将各个业务系统中采集到的销售、财务、物流、仓储等基本业务数据进行整合，形成节点前置库，并进行数据加载，形成结构化的综合信息共享库与管理数据库，最后通过加工处理形成数据集市，并通过综合分析、统计报表、智能分析、决策支持等方式展现给用户。

如下图所示：

5.2.2.2、数据资源整合

主要功能是实现将分散、异构的数据和记录进行规范化整理并实现聚合处理，生成基本数据集所规范的、全面动态的企业业务综合数据信息（宏观或个案级别综合业务视图）共享库，该综合共享库支持动态、交互、智能的综合业务管理，可发布（提供）综合集成的“全景业务信息”以支持全局性同步信息共享。

主要功能模块包括数据规范化整理（数据校验、语法学清洗、语义学清洗等）和数据聚合处理（数据解析、整合存储/主数据管理、展现预处理等）。

流程如下图：

1、数据校验清洗

数据质量问题分类：

根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层我们将数据质量问题分为4类:

单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题，具体的质量问题表现如下：

1）缺少完整性约束,糟糕的模式设计，2）数据记录的错误,3）异质的数据模型和模式设计,4）冗余、互相矛盾或者不一致的数据,5）唯一性约束,⑾引用约束,6）拼写错误,7）相似重复记录,8）互相矛盾的字段,9）命名冲突,10）结构冲突,11）不一致的汇总,12）不一致的时间选择。

问题数据处理：

单数据源情形中出现的问题在多数据源的情况下会变得更加严重.多数据源没有列出在单数据源情形中就已经出现的问题.模式层次上的问题也会体现在实例层次上.糟糕的模式设计、缺少完整性约束的定义以及多个数据源之间异质的数据模型、命名和结构冲突等,都属于该类问题.可以通过改进模式设计、模式转化和模式集成来解决模式层次上的问题.实例层次上的问题在模式层次上不可见,一些可能的情况有数据拼写错误、无效的数据值、重复记录等。

对于第1种情形,由于在数据输入时不知道电话字段的值,因此在数据库中以存放一个无效值来表示.如果针对电话字段定义一个规则存放在数据清洗库中,清洗工具就能够根据这条规则判断出哪些是无效值.对于第2种拼写错误的情形,需要在数据清洗库中建立一个存放所有城市名的查找表,通过与该查找表中的城市名相比较,就可以判断出数据库中存放的本来应该是哪个城市.对于第3种情况,一般也需要利用外部的查找表才能检测出来并加以改正.在数据清洗工具中,一些典型的查找表应该是内建的,此外也应该具备可扩展性,允许用户加入新的查找表.对于第4种情形,在一个自由格式的文本类型的字段里包括了很多部分,每个部分都可以单独作为一个字段.如果每个部分的先后顺序一定,且互相之间有分隔符或者保留字,比如Street,Road等等,就比较容易处理.但是,实际中的情况往往不是这样,因此要通过机器学习或者其他办法来解决.由领域专家选定学习样本（相对于所要处理的数据集,样本数量少得多）来训练系统,等训练好了以后,再由系统自动处理大规模的数据集.由于采用机器学习的办法,因此一般来说,需要折衷考虑记忆率和准确率.我们将利用隐马尔科夫模型（HMM）的解决办法.

第6种情形的问题是字段之间不对应.为了改正,需要知道哪个字段更可信,这必须利用其他信息才能决定。

第8种和第9种情形表示的是相似重复记录的情况.在第8种情形里,一个记录的name没有简写,而另一个记录的name被简写了,通过定义合适的编辑距离函数,或者内建常用的缩写规则,清洗工具可以检测出这类重复记录.在第9种情形中,同一个现实实体（两个记录的name值相同）,但是两个记录的bdate值不一样,在合并这两条记录时,如何选择一个合适的bdate值,是一个棘手的问题.相似重复记录的匹配和合并,是数据清洗过程中一个很重要的问题.首先,选择一个好的距离函数很重要.另外,记录的匹配过程非常耗时.如果采用最简单的方法,所有记录之间两两进行比较,以此来决定是否匹配,其计算复杂度为O（n2）,这里n为数据库中的记录数.对很大的数据库来说,这样的时间开销是无法忍受的。

在检测相似重复记录之前,需要先对数据进行一些处理.典型的处理操作包括:

字段分裂.从自由格式的文本字段中抽取结构,分离各个部分.

验证和改正.根据查找表来验证字段值的正确性,若发现错误,则加以改正.如果提供合适的领域知识,该过程也可以验证字段之间的依赖关系.

数据标准化.将同一类型的数据用统一的格式来表示,比如日期、电话号码、性别等.

在完成大部分的数据转化和其他清洗步骤以后,就可以执行相似重复记录的匹配和合并了。

通常情况下,指向同一个现实实体的两条记录的信息是部分冗余的,它们的数据互为补充。

因此,通过将其合并,能够更准确地反映该实体.

相似重复记录清除可以针对两个数据集或者一个合并后的数据集.首先,需要识别出标识同一个现实实体的相似重复记录,即记录匹配过程.随后,将相似重复记录合并成一个包含该实体的更多属性,而且无冗余信息的记录,同时从数据集中删除多余的记录。

最简单的情况是,数据记录具有这样的属性集（或者属性）,它总能够惟一标识一个实体.这时,只要对两个记录集在该属性集上作等值连接,就完成了记录匹配过程.对单个记录集的情形,先根据该属性集进行排序,然后通过检查相邻的记录,就可以判断出它们是否为相似重复记录.如果不存在这样的键属性集,而且数据中可能还存在错误,例如拼写错误等,上面的简单办法就不合适了.这时可以通过引入匹配规则来完成模糊匹配,规则是描述性的,而且可以利用用户自定义的函数.例如,可以有这样的规则:

如果name字段相同,而且address字段相似度也很大,那么这两条记录是重复记录.字段之间的相似度,一般用0~1之间的数值来表示,而且不同的字段对记录之间总的相似度的贡献,具有不同的权值.相似度的定义和权值的分配,要由领域专家来确定.对字符串类型的数据,精确匹配或者基于通配符、词频、编辑距离、键盘距离和发音相似度的模糊匹配是很有用的,我们还考虑了字符串的缩写形式并结合信息检索的向量空间模型来定义文本元素之间的相似度。

在处理大的数据集时,匹配重复记录是一个非常耗时的过程.因为是模糊匹配,所以整个过程相当于要对两个记录集做笛卡尔积.然后,根据相似度进行排序,那些相似度超过某一阈值的记录被认为是重复记录,低于某一阈值的记录则不被认为是重复记录，而相似度介于这两个阈值之间的记录是候选的相似重复记录,需要用户作出决定。

因为这类记录的数量不多,所以由用户来决定是可行的。

2、数据聚合处理

根据信息采集整合展现信息系统的建设需求，把清洗后的数据抽象为采购、客服、物流、质管、运营、财务6个业务域。

5.2.2.3、数据分类存储

1、标准数据

标准数据是系统运行的数据基础。

标准数据包括业务数据的所有数据标准规范，通过这个库和数据校验机制对数据中心的数据进行标准化保障。

由于数据标准存在着时效性，因此针对有时效性的数据进行版本控制，不同的版本有各自的生命周期，不同生命周期中的业务数据对应不同版本的数据。

2、业务数据

业务数据是指从各业务系统中各环节收集上来的业务数据，如财务信息、物流信息、采购订单信息等等。

这些数据将会存储到相应的业务域中进行统一管理。

3、主题数据

业务数据以主题的方式进行整合和预处理，本系统主要包括的数据主题有：

采购、客服、物流、质管、运营、财务。

5.2.2.4、中间库存储服务

是承接信息获取服务所加载的数据集并实现按数据提供将原始数据集归档。

根据业务需求和技术能力其具体实现可做多种策略选择：

“基于自定义建模的关系数据存储”，或“基于自定义建模的关系数据存储+基于主数据管理模式的操作数据存储”。

区别在于对业务需求变化扩展的适应性和实施成本效益，另外基于主数据管理模式的操作数据存储可以直接支持面向全局同步信息共享视图展现，同时可相当程度支持数据利用业务需求变化。

数据仓库存储服务是面向决策支持、基于决策模型的信息展现引擎。

当综合数据信息共享库（综合数据存储服务）包含基于主数据管理的操作数据存储和基于决策模型的面向主题存储时，综合管理信息平台对因业务需求变化（决策模型变化或信息共享规范扩展）的适应性和支持能力得以提高。

5.2.2.5、数据聚合

数据仓库是为了系统建立的数据库,其用来对业务进行统计分析、业务监督、绩效考核、应急指挥及决策支持等。

其是通过从各系统数据中抽取归纳出来的，主要包括共享资源数据库和主题数据库。

5.3、数据应用

数据应用模块采用SOA构架,统一了Web应用构架，统一了元数据，能够访问企业资源系统的所有数据源，为所有用户提供了基于纯浏览器的全面的BI功能。

5.3.1、应用定制

系统主要应用定制方式为：

报表定制、热点定制、图形定制、数据挖掘四部分，主要实现技术路线为下图：

5.2.1.1、定制类型

1、热点定制

定制文本数据混合的输出方式，简称热点定制。

可提供可编辑页面，支持从WORD或网页直接黏贴内容以规范文本输出。

提供指标选择功能，让用户可以自行选择汇总指标到编辑页面，并在选择时指定汇总指标的各种条件的默认值。

保存热点名称和用到的汇总指标定义到数据库，把可编辑页面的HTML代码保存到数据库，并可以进行修改。

如下图：

2、报表定制

通过指定汇总指标及其分组项、条件，形成各种类型的报表。

树形结构列出所有的汇总指标以备用户选择，可以多选，并可以选择上月数、去年同期数。

综合选择的汇总指标，列出其共有的分组因素，并分为三栏显示。

根据用户指定的纵向分组因素和横向分组因素生成预览表。

并可保存所有用户定义到指定的报表名称。

如下图:

3、图形定制

通过指定汇总指标及其分组项、条件，形成各种类型的图形。

树形结构列出所有的汇总指标以备用户选择，只能单选。

分析用户用户选择的汇总指标并将其分组因素列为两栏。

其一为输出分组项选择，选择后可以预览报表和图形、其二为条件或默认条件指定区域，在分组因素外多出时间范围条件。

允许用户选择输出图形的类型——包括比例图、直方图、日线趋势图或月线趋势图，如果用户选择的是趋势图则分组项选择失效，只能按照时间进行分组。

允许用户预览输出结果（不含数据或随机数据），并对图表位置进行调整。

4、数据挖掘

对展现的数据进行深入挖掘探索，一直到基础数据或相关链接系统。

上级中规定了在数据输出的同时把每个数据项的元数据属性同时输出，该属性包括：

该数据项对应的汇总指标的指标ID；

该数据项已经包含的条件；

该数据项已经包含体现的分组因素；

该报表、图形或热点本身定义中规范的链接方向（可以为空）。

依据以上元数据的定义，有两种分支：

（1）如果该报表、图形或热点本身定义中规范的链接方向不为空，则

1）如果链接方向为本系统中的其他数据资源则把元数据属性中的1、2、3部分分别传递给该数据资源，并把当前点击的数据项的值和其分组项关系也作为条件传输给目标数据资源，然后调用数据输出功能对目标数据资源进行输出。

2）如果链接方向为其他业务系统中的页面资源，则利用单点登录功能模拟出登录效果，并打开该页面资源。

（2）如果该报表、图形或热点本身定义中规范的链接方向为空，则

1）分析该汇总指标已经体现了哪些分组因素，条件中考虑了哪些分组因素，从而获得没有涉及到的分组因素列表，并用弹出菜单的方式请求用户选择向下展开至哪个分组因素，菜单末尾为“基础数据”；

如果没有未涉及到的分组因素则直接进入基础数据查询。

2）如果进入的还是汇总指标的查询，则系统形成新的临时图形分析定制，依据用户选择的分组项和原数据项含带的元数据生成，如果是绝对数指标则默认以比例图方式展现，如果是计算指标则默认以直方图展现。

3）如果进入的是基础数据查询，则判断该汇总指标通过哪些基础数据视图的数据汇总得来，并提取这些基础数据视图中列表显示的基础数据指标，配合汇总指标的分组因素（本次涉及到的）形成基础数据列表的输出表头，同时依据汇总指标的条件设置和基础数据视图的关联关系形成SQL语句，从而得到数据。

5.2.1.2、数据分析支撑

实现应用定制的支撑工具包括元数据模型设计和管理工具、多维分析服务器、报表工具、多维分析工具、数据管理工具

1、元数据模型设计和管理工具

本系统采用统一的元数据模型。

应用统一的元数据模型设计和管理工具，通过图形化的界面，就可以对多数据源进行描述，并且能够同时描述DB，OLAP等各种数据源。

为应用提供统一一致的数据访问。

同时元数据模型设计和管理工具支持通用的CWM标准能够和各种第三方的工具实现元数据交换。

可直接使用第三方工具生成的元数据模型。

从而：

1、减小了开发工作量；

2、减小了系统维护和修改工作量；

3、提高了应用开发效率；

4、具有良好的元数据的层状扩展性。

是应用和数据库之间的语义层，他封装数据库底层表和字段，建立表连接，为后续开发人员和最终用户提供一个贴合业务术语的数据库结构视图。

在元数据模型中可以对已有的数据库结构进行描述，加入各种计算字段，绑定数据的过滤器等，同时可以采用动态SQL，使查询的语句根据不同的条件和情况灵活的适应数据库结构。

他可以连接多个数据源，能够连接OLAP,DB等各种数据源。

提供对元

展开阅读全文