数据仓库的建设实施.pptx

上传人:A**** 文档编号:18672642 上传时间:2023-08-28 格式:PPTX 页数:60 大小:1.89MB
下载 相关 举报
数据仓库的建设实施.pptx_第1页
第1页 / 共60页
数据仓库的建设实施.pptx_第2页
第2页 / 共60页
数据仓库的建设实施.pptx_第3页
第3页 / 共60页
数据仓库的建设实施.pptx_第4页
第4页 / 共60页
数据仓库的建设实施.pptx_第5页
第5页 / 共60页
数据仓库的建设实施.pptx_第6页
第6页 / 共60页
数据仓库的建设实施.pptx_第7页
第7页 / 共60页
数据仓库的建设实施.pptx_第8页
第8页 / 共60页
数据仓库的建设实施.pptx_第9页
第9页 / 共60页
数据仓库的建设实施.pptx_第10页
第10页 / 共60页
数据仓库的建设实施.pptx_第11页
第11页 / 共60页
数据仓库的建设实施.pptx_第12页
第12页 / 共60页
数据仓库的建设实施.pptx_第13页
第13页 / 共60页
数据仓库的建设实施.pptx_第14页
第14页 / 共60页
数据仓库的建设实施.pptx_第15页
第15页 / 共60页
数据仓库的建设实施.pptx_第16页
第16页 / 共60页
数据仓库的建设实施.pptx_第17页
第17页 / 共60页
数据仓库的建设实施.pptx_第18页
第18页 / 共60页
数据仓库的建设实施.pptx_第19页
第19页 / 共60页
数据仓库的建设实施.pptx_第20页
第20页 / 共60页
亲,该文档总共60页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

数据仓库的建设实施.pptx

《数据仓库的建设实施.pptx》由会员分享,可在线阅读,更多相关《数据仓库的建设实施.pptx(60页珍藏版)》请在冰点文库上搜索。

数据仓库的建设实施.pptx

数据中心(数据仓库)的建设实施深圳海联讯科技股份公司张千福一体化平台总体拓扑图身份管理认证代理人员目录认证目录人力资源安全生产物资管理协同办公营销管理财务管理项目管理综合管理操作型数据存储(ODS)数据仓库商务智能全局数据字典公共信息模型业务流程集成业务数据集成身份认证登录身份认证登录数据中心数据中心业务系统业务系统数据交换数据交换网省公司网省公司网省公司网省公司安安全全管管理理企业资源管理平台ETL1运运维维管管理理企业门户企业门户单点登录基础支基础支撑功能撑功能个性化定制多渠道接入Portlet框架虚拟门户门户管理与维护基本基本应用应用扩展扩展应用应用展现层的应用集成Web内容管理搜索协同工作待办事宜BI展现对8大系统中协同办公的规范要求对应用集成项目的规范要求对BI接入的规范要求ETL2基本概念广义数据中心:

广义数据中心:

数据中心是提供所有应用系统的运营场所。

数据中心也是容纳用以支持应用系统运行的基础设施(包括服务器、网络、存储设备)的物理地点。

数据中心本身的ODS、数据仓库及建立在其上的决策分析应用。

数据中心需要有一套成熟的运行、维护体系支持其日常运行,保证应用系统高效地不间断运行,数据被正确的访问狭义数据中心:

狭义数据中心:

狭义的数据中心是指数据仓库和建立在数据仓库之上的决策分析应用,具体包括:

数据源,数据的ETL,ODS数据库,数据仓库,数据集市,商务智能应用和元数据管理等。

在此作业指导书中,除非特别说明数据中心都是指侠义的数据中在此作业指导书中,除非特别说明数据中心都是指侠义的数据中心,即数据仓库及建立在数据仓库之上的商务智能和决策分析应心,即数据仓库及建立在数据仓库之上的商务智能和决策分析应用。

用。

作业指导书概述数据仓库概念:

数据仓库概念:

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

数据仓库可以帮助用户更好地理解信息,从新的角度看待这些信息,以便获得更好的洞察力,看到模式和趋势,并更好地进行商业决策。

数据仓库为整个企业的需要服务。

数据仓库需要访问不同的数据源,需要存储海量的数据,需要对企业数据进行分析,并用适当的方式展现给出来。

数据仓库的建设不仅涉及到许多先进的技术,更涉及到企业所有的业务知识,所以说数据仓库不是一个产品,而是一个具体的解决方案。

据中心念数概数据仓库概念背景目的与建步建设骤议迭代系关例明实说整体架构图O_x:

数据横向移动:

数据横向移动V_x:

数据纵向移动:

数据纵向移动EAI影像影像/文档型数据文档型数据元数据元数据数据集市数据集市数据仓库数据仓库缓冲区缓冲区数据交换平台数据交换平台数据交换平台数据交换平台或或ETL或或数据复制数据复制对上接口区对上接口区部署在省的部署在省的八大业务系八大业务系统数据统数据省省电电力力数数据据中中心心安全生产数据集市安全生产数据集市财务与绩效集市财务与绩效集市人力资源集市人力资源集市营销集市营销集市数据挖掘集市数据挖掘集市其它集市其它集市对下接口区对下接口区网省下传数据网省下传数据总部下传数据总部下传数据网省上传数据网省上传数据数据集市数据集市数据仓库数据仓库对下接口对下接口区区EAI总总部部数数据据中中心心地地市市综合数据库综合数据库特色业务应用数据特色业务应用数据数据数据缓冲区缓冲区部署在地市部署在地市,通过数据通过数据复制到网省数据中心复制到网省数据中心的业务系统数据的业务系统数据部署在地市的部署在地市的业务系统数据业务系统数据部属在总部部属在总部的业务系统的业务系统数据数据O_1O_2O_4O_5V_1V_2V_3O_7O_6O_9O_10统一视统一视图区图区O_3缓冲区缓冲区统一视统一视图区图区ODSO_8ODS数据中心建设过程需求分析逻辑分析ODS建模数据仓库建模源数据分析数据的获取与整合应用设计性能调优数据展现元数据管理系统建设过程迭代式开发需求分析逻辑分析ODS建模数据仓库建模数据源分析应用设计数据获取与整合国网典设建议的甲方项目组织网省项目组PM各业务部门代表各业务系统开发商代表软/硬件平台提供商PIM集成商PIM业务负责人业务系统负责人数据中心实施负责人项目经理助理海联讯的项目组织项目经理设计需求定义开发测试部署实施需求采集需求分析数据建模数据质量分析架构设计应用功能设计数据获取设计物理数据设计数据获取开发应用功能开发QAL/CML实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用分析应用分析8性能调优性能调优9数据展现数据展现需求分析调研内容调研对象调研时间调研地点内容1内容2内容3内容4调研计划实际调研需求格明规说书需求分析调研计划实际调研需求格明规说书调研方式:

调研方式:

当面访谈;问卷调查;访谈及问卷提纲模板请参见附录2需求分析调研计划实际调研需求格明规说书例实调研内容:

针对不同层面的人员,调研内容不同调研内容:

针对不同层面的人员,调研内容不同对企业领导层对企业领导层领导层目前的工作重点有哪些和此主题相关,和哪几个指标相关?

领导层最关心哪几个指标?

针对这些指标,领导层目前采用何种获取方式?

针对这些指标,领导层目前都进行哪些分析,采用何种分析手段,采用何种分析方法?

目前状况下,针对这些指标都有哪些展现方式?

领导层对数据仓库的期望是什么?

领导层希望决策分析系统能提供哪些分析功能?

领导层希望以何种方式来看这些指标?

领导层希望对这些指标进行哪些方面的比较?

需求分析调研计划实际调研需求格明规说书调研内容:

针对不同层面的人员,调研内容不同调研内容:

针对不同层面的人员,调研内容不同对中间管理层对中间管理层中间管理层通常需要上报哪些指标?

和此分析主题相关的有哪些指标?

平时领导层通常询问哪些指标?

在这些指标中哪几个和此分析主题有关?

中间管理层目前的工作重点有哪些和此主题相关,和哪几个指标相关?

中间管理层本身最关心哪几个指标?

中间管理层对下属的工作人员都考核哪些指标?

哪几个指标与此分析主题有关?

针对这些指标,中间管理层目前采用何种获取方式?

针对这些指标,中间管理层目前都进行哪些分析,采用何种分析手段,采用何种分析方法?

目前状况下,针对这些指标都有哪些展现方式?

中间管理层对数据仓库的期望是什么?

中间管理层希望决策分析系统能提供哪些分析功能?

中间管理层希望以何种方式来看这些指标?

中间管理层希望对这些指标进行哪些方面的比较?

需求分析调研计划实际调研需求格明规说书调研内容:

针对不同层面的人员,调研内容不同调研内容:

针对不同层面的人员,调研内容不同对业务人员对业务人员平时工作中最关心的是哪些指标?

有哪几个指标与此分析主题有关?

平时直属领导通常询问哪些指标?

在这些指标中哪几个和此分析主题有关?

业务人员目前的工作重点有哪些和此主题相关,和哪几个指标相关?

业务人员对数据仓库的期望是什么?

业务人员希望系统能提供哪些分析功能?

业务人员希望以何种方式来看这些指标?

业务人员希望对这些指标进行哪些方面的比较?

需求分析调研计划实际调研需求格明规说书调研内容:

针对不同层面的人员,调研内容不同调研内容:

针对不同层面的人员,调研内容不同对对IT人员人员此主题所需要的数据源都取自哪些业务系统?

与本主题有关的现有的业务系统的数据结构怎样?

与本主题有关的现有的业务系统的数据更新频率如何?

IT人员对数据仓库的期望是什么?

IT人员在平时的工作中最关心的哪些指标?

需求分析调研计划实际调研需求规格说明书需求规格说明书需求规格说明书模板详见附录4实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用分析应用分析8性能调优性能调优9数据展现数据展现逻辑分析单一主题处理逻辑分析从业务逻辑入手,分析各指标的组成关系;多主题处理逻辑分析综合考虑各分析主题间的逻辑关系;处理逻辑分析支撑据分析数元据建立业务数逻辑分析单一主题支撑数据分析单个主题分析所需要的原始支撑数据分析多主题支撑数据分析所有主题统一考虑做需要的支撑数据分析理分析处逻辑支撑数据分析元据建立业务数逻辑分析业务元数据包括以下信息:

使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。

理分析处逻辑支撑据分析数业务元数据建立实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用分析应用分析8性能调优性能调优9数据展现数据展现ODS建模ODS逻辑模型逻辑结构:

完成实体的定义,各实体间的关系等存储周期(立即删除、过一段时间删除或者是备份到其它介质上)存储粒度(与源系统基本保持一致)ODS物理模型数据的存储结构索引策略数据存放位置(硬盘或磁带等)存储分配分区设计逻辑模型物理模型例验证实ODS建模模型逻辑物理模型验证实例实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用分析应用分析8性能调优性能调优9数据展现数据展现需求分析逻辑分析ODS建模数据仓库建模数据仓库建模源数据分析数据的获取与整合应用设计性能调优数据展现元数据管理系统建设过程数据仓库建模数据仓库逻辑模型数据仓库逻辑模型划分粒度层次确定数据分割策略确定存储周期定义关系模式数据仓库物理模型数据仓库物理模型数据的存储结构索引策略数据存放位置(硬盘或磁带等)存储分配分区设计逻辑模型物理模型例验证实数据仓库建模模型逻辑物理模型验证实例实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用分析应用分析8性能调优性能调优9数据展现数据展现数据源分析数据源范围包括数据源逻辑范围和物理范围数据源格式理解各数据源的格式,确定统一的格式,制定相应的转换规则数据源范围数据源格式据量数据量数质据更新率数频数据源分析ORACLE数据源名称名称代码代码用电分类AC_ELEC_CLASS电价表AC_TARIFF行业AC_TRADE_TYPE欠费信息表CHG_RECEIVABLES客户信息EP_CUST_INFO电量与电费表EP_RESULT地区(单位)SU_AREA部门SU_DEPT电压AC_VOLT_GRADE数据源范围数据源格式据量数据量数质据更新率数频数据源分析SYBASE数据源名称名称代码代码用户基本信息User_inf按户电费数据User_cost电费数据bill_data用电性质代码表Code_e_kind用电类别Code_usage_date电价表Price计费日期对应电价日期cal_price_date单位代码Dept行业代码表Code_trade_new电压代码表Codvolt时段Code_period用户类别Code_user_type用户使用电表User_ammeter用电分类代码表rep_salse_kind用电分类与用电性质关系表rep_salse_relation其它电费数据Bill_data_oth数据源范围数据源格式据量数据量数质据更新率数频数据源分析名称代码更新用电类AC_ELEC_CLASS维表(缓慢变化)电价表AC_TARIFF维表(缓慢变化)行业AC_TRADE_TYPE维表(缓慢变化)欠费信息表CHG_RECEIVABLES月客户信息EP_CUST_INFO维表电量与电费表EP_RESULT月地区(单位)SU_AREA维表(缓慢变化)部门SU_DEPT维表(缓慢变化)电压AC_VOLT_GRADE维表(缓慢变化)据源范数围据源格式数据量数据量数质数据更新频率数据源分析名称代码数据量用电分类AC_ELEC_CLASS92电价表AC_TARIFF355行业AC_TRADE_TYPE595欠费信息表CHG_RECEIVABLES1309341客户信息EP_CUST_INFO147692电量与电费表EP_RESULT2775326地区(单位)SU_AREA15部门SU_DEPT102电压AC_VOLT_GRADE6据源范数围据源格式数数据量据量数质据更新率数频数据源分析据源范数围据源格式数据量数数据质量据更新率数频GeneralPatternDataTypeUniqueDomainAttributeAnalysisFunctionalDependency内容和功能依赖OrphansChildlessJoinsRedundantAttributesReferentialAnalysisReferentialAnalysisDataProfilingDataProfilingCustomProfiling实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用分析应用分析8性能调优性能调优9数据展现数据展现数据的获取与整合直接抽取ETL服务器直接连接到应用系统后台数据库中,直接抽取所需数据。

采用这种抽取方式时,必须注意安全控制和抽取时间窗口两个问题。

WEB服务通过WEB服务获取系统需要的数据的抽取方式。

文件交换文件交换是指应用系统将需要抽取的业务数据保存为有格式的文本文件,然后ETL服务器通过读此文件内容来获取业务数据的数据抽取方式。

数据获取方式据方式数转换据装方式数载数据的获取与整合字段映射代码转换字段拆分字段合并字段运算字段补充行列转换据取方式数获数据转换方式据装方式数载数据的获取与整合全部覆盖记录追加记录更新据取方式数获据方式数转换数据装载方式实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用设计应用设计8性能调优性能调优9数据展现数据展现应用设计OLAPOLAP分析方法分析方法ROLAPMOLAPHOLAPOLAP分析定表预义报即席查询据掘数挖应用设计OLAP分析定表预义报即席查询据掘数挖应用设计预定义报表预定义报表对单报表可以直接从数据库中取出数据进行分析展现。

同一主题的多个报表间有较强的关联,有些数据会在多个报表中以不同方式出现。

因此,可以对多个报表进行整合。

OLAP分析预定义报表即席查询据掘数挖应用设计即席查询即席查询基于单个事实表的即席查询基于多个事实表关联的即席查询OLAP分析定表预义报即席查询据掘数挖应用设计数据挖掘数据挖掘定义问题:

清晰地定义出业务问题,确定数据挖掘的目的。

数据准备:

包括:

选择数据:

在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理:

进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

数据挖掘:

根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

结果分析:

对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

知识运用:

将分析所得到的知识集成到业务信息系统的组织结构中去。

OLAP分析定表预义报即席查询数据挖掘实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用展现应用展现8性能调优性能调优9数据展现数据展现性能调优优化指标优化指标对系统性能进行评估,得出相关性能指标综合各种相关因素,得出各项指标的期望值优化步骤优化步骤根据经验调整,无固定的步骤汇报内容数据仓库建模51概述2需求分析3逻辑分析数据源分析64ODS建模元数据管理117数据获取与整合8应用分析9性能调优10数据展现数据展现数据展示展现内容展现数据以及展现格式展现方式报表图形图标展现方法打印报表电子报表WEB发布展现界面设计前端展现展现界面设计之一:

关键指标提示与告警展现界面设计之一:

关键指标提示与告警展现界面设计之一:

关键指标提示与告警展现界面设计之一:

关键指标提示与告警选择关心的时间滚动条动态更新售电量,实收电费等关键信息计量表标识出当前售电量,总电费与去年同期以及今年计划的对比情况导航分析提示异常情况的出现,并提供明细分析导航实施过程数据仓库建模数据仓库建模41需求分析需求分析2逻辑分析逻辑分析数据源分析数据源分析53ODS建模建模元数据管理元数据管理106数据获取与整合数据获取与整合7应用设计应用设计8性能调优性能调优9数据展现数据展现元数据管理流程数据源元数据ETL元数据数据仓库元数据数据集市元数据多维分析元数据前端展示元数据数据挖掘元数据其他元数据MetadataRepositoryETL管理工具建模工具OLAP元数据获取转换程序前端展示元数据获取转换程序数据挖掘元数据获取转换程序其他元数据获取转换程序APIAPIAPIAPI手工API统一元数据管理工具元数据展示、管理元数据获取元数据存储元数据访问:

技术元数据:

业务元数据图示说明:

图示说明:

数据源元数据ETL元数据数据仓库元数据数据集市元数据多维分析元数据前端展示元数据数据挖掘元数据其他元数据MetadataRepositoryETL管理工具建模工具OLAP元数据获取转换程序前端展示元数据获取转换程序数据挖掘元数据获取转换程序其他元数据获取转换程序APIAPIAPIAPI手工API统一元数据管理工具元数据展示、管理元数据获取元数据存储元数据访问:

技术元数据:

业务元数据图示说明:

图示说明:

元数据管理元数据模型采用公共仓库元模型(CommonWarehouseMetamodel,简称CWM)。

CWM的主要目的是在异构环境下,帮助不同的数据中心工具、平台和元数据知识库进行元数据交换。

CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。

元数据管理涉及到数据仓库构造、运行、维护的整个生命周期,是数据仓库构建过程中十分重要的一环。

元数据以数据库存储,集中管理控制。

元数据模型元据管理数元据告数报元据入出数导导元数据管理元数据的存储:

元数据应以数据库存储,便于管理,维护和扩展。

数据交换:

支持以XML等标准进行数据交换。

应用编程接口(API):

通过API接入为元数据管理提供所需的灵活性。

元数据集中控制:

元数据为整个经营分析系统的信息资源提供了记录,应对元数据集中管理控制,以确保信息的一致性和准确性。

影响分析:

从元数据中发现任何变化给全局带来的影响,确定某个实体的用途和与其它实体的关联。

版本控制:

指测试和生产过程中的版本控制,应按部门进行。

允许多个开发人员同时开发项目,并且开发人员可以根据要求修改对象,而不影响其他开发人员。

元据模型数元数据管理元据告数报元据入出数导导元数据管理逻辑模型报告逻辑模型报告实体:

实体属性、数据类型关系:

实体之间的关系维度:

维度定义、层次、属性、度量:

维度、计算公式物理模型报告物理模型报告表、视图汇总表立方体存储模式ETLETL报告报告数据映射关系数据装载过程元据模型数元据管理数元数据报告元据入出数导导元数据管理元数据管理需要遵循OMG-CWM元数据标准,元数据库中的内容可以按CWM的标准导出,提供给其它软件,也可以从其它工具中导入元数据。

元据模型数元据管理数元据告数报元数据导入导出以数据为驱动的快速实施我们有什么可我们有什么可供分析的数据供分析的数据?

收集数据样?

收集数据样本本快速开发界快速开发界面原型并确面原型并确认认对有价值的原型对有价值的原型进行深入数据分进行深入数据分析,确定数据提析,确定数据提供策略和方式。

供策略和方式。

模型固化模型固化数据贯通数据贯通在省公司数据中心架构已经实现的基础上,以集中式的数据中心建设,可以采用快速实施的方法调整与性能优化调整与性能优化多年数据仓库的建设体会1、数据展现的开发和准确数据的数据,是能否做好仓库的基础。

形式很重要。

2、只要有好的数据就可以开展一定的工作,不一定要等应用系统建设成功才开展。

3、数据模型并不是最重要的事情。

分析模型的建立往往取决于分析的要求。

对于大家追求的数据共享和分析的通用模型,取决于数据源,这个工作应该在业务系统层面去实现。

通用的共享视图模型可以是虚拟存在的,比如采用数据库视图来实现。

4、数据集中很重要,没有数据的集中,就会失去动力和基础。

数据有了量的积库累,一定是有文章做的,分析模型的抽象一定是在大量数据的基础上的。

对于每个业务系统,我们一定要厂家提供数据库设计文档,最好安排资源对文档与数据库的一致性进行检查。

这个工作做好了,其实可以少很多后续的协调工作。

5、完整意义上的一体化建设,会存在多次迭代和反复。

数据分析的要求,会促使业务系统的升级和改造。

同时业务系统的升级,也会提供新的数据,同时引发新的数据展现要求。

6、商业智能分析工具也呈一体会趋势,目前整合趋势这提格局已定,未来就是以几大软件巨头竞争,我们没有太多的选择。

7、早期建设,不建设做过多的数据处理,以便于核对数据的准确性。

模型加工的对应性一定要可直接追溯。

问题交流

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2