数据挖掘Olap实验报告.docx
《数据挖掘Olap实验报告.docx》由会员分享,可在线阅读,更多相关《数据挖掘Olap实验报告.docx(15页珍藏版)》请在冰点文库上搜索。
数据挖掘Olap实验报告
实验报告
一、实验目的
利用oracle10g数据库和OLAP分析工具对数据仓库中的大量数据进行分析,经过对大量数据的分析总结,从分析的结果中得出这些大量数据中隐含的对企业或个人有用的知识和信息,这些知识有助于企业管理者对企业的发展做出有利的决策。
二、实验原理
1)原理概述
要想得到对决策者有用的知识和信息,必须是建立在对大量数据分析的基础上。
而这些数据是保存在基于数据分析的数据仓库中,数据仓库内保存了企业最近几年销售或和销售有关的大量数据。
利用对大量数据进行分析的OLAP工具,对数据仓库中的数据从企业关心的某个角度进行分析,就可以得出有用的知识,辅助决策者做计划。
对数据分析需要多维的数据信息,而我们目前用的都是二维的关系数据库,所以我们必须将多维的数据信息保存在二维的数据库中。
要达到这个目的,我们首先在关系数据库中建立两种表即维表和事实表,维表中记录了多维数据在每个维度的信息,事实表中记录了多维数据在交叉点处的具体取值。
我们主要看的就是事实表中那些关键的数据。
本实验涉及的一些术语:
维:
是我们观察某个问题的角度。
如我们可以从时间维,地理维,客户维等角度看数据。
层次:
是对维的进一步细化。
如时间维可以划分为年月日等层次。
维的成员:
就是某个维的具体取值。
2)分析数据的软件环境
oracle10g数据库:
提供数据存储的地方。
oracle客户端:
建立数据表和进行数据分析。
三、实验步骤
1)启动oracle10g数据库。
在系统的服务管理工具中手动启动,或系统开机自动加载。
2)设计所分析问题的数据结构和在数据库中建立的维表和事实表。
本实验中主要是对某公司产品的销售和盈利情况做数据分析。
我们从时间维,地理维,客户维,产品维四个角度对某公司的产品销售量和盈利情况分析,分别对应的维表名为W_TIME,W_POS,W_CLIENT,W_PRODUCT,然后建立事实表,对应的表名为W_SALE,这五个表的结构如下图所示:
图1客户维的数据表结构
图2地理维的数据结构
图3产品维的数据结构
图4时间维的数据结构
图5销售情况的事实表结构
在数据库中建立这五个表后就可以在表中存放企业的业务数据,本实验中的数据如下:
图6客户维表中的数据
图7地理维表中的数据
图8产品维表中的数据
图9时间维表中的数据结构
图10销售事实表中的数据
3)在数据库中建立了事实表和维表就意味着我们已经将多维的数据存储到二维的关系数据库中了。
我们要进行数据分析就要建立相应维和层次并将这些维、层次和数据库中的相应表进行映射。
用客户端的OLAPanalgticworkspaceManager的工具中建立维、层次、级别、立方以及和数据库相关表的映射关系。
本实验建立的维结构如左图
POSTION维对应地理维表,它包括三个层次。
级别从大到小是PRO,CITY,POS。
WTIME维对应时间维表,它包括年月日三个层次。
级别从大到小是YEAR,MONTH,DAY。
PRODUCT维对应产品维表,它包括种类和名字两个层次。
级别从大到小是KIND,NAME。
CLIENT维对应客户维表,它包括性别,年龄和姓名三个层次。
级别从大到小是SEX,AGE,NAME。
分别对它们建立级别和相应的层次时,注意它们建立的顺序都是按从大到小的顺序建立的,否则会发生错误。
图11分析空间中建立的维结构
4)对建立的每个维和数据库中的表建立映射关系,映射关系如下图所示:
图12地理维的映射关系
图13时间维的映射关系
图14产品维的映射关系
图15客户维的映射关系
以上是对每个维建立的映射关系。
5)建立立方,即建立对事实表的度量,本实验中建立的两个度量是NUMBER和PROFIT,分别用来分析公司产品销售的数量和盈利情况。
然后就可以建立事实表的映射关系,这样的映射关系如下图所示:
图16事实表的映射关系
我们分析一下事实表和维表的关系。
每个维表中的主键也要建立在事实表中,而在事实表中每个维表的主键合起来作为事实表的主键。
这样事实表和维表就通过这些主键建立了关系。
本实验中是采用星型结构来表示多维数据结构的,结构如下图所示:
CLIENT_ID
CLIENT_NAME
SEX_ID
SEX_NAME
AGE_ID
AGE_NAME
TIME_ID
POS_ID
CLI_ID
PRO_ID
PROFIT
PRODUCT_NUMBER
TIME_ID
DAY_NAME
YEAR_ID
YEAR_NAME
MONTH_ID
MONTH_NAME
POS_ID
PRO_ID
PRO_NAME
CITY_ID
CITY_NAME
KINK_ID
KIND_NAME
PRO_ID
PRO_NAME
图17星型多维数据的结构
6)建立好维和立方后就可以维护维和查看数据。
维护每个维和查看每个维的数据,数据如下图所示:
图18维护地理维
图19查看地理维的数据
图20维护时间维和查看数据
图21维护产品维和查看产品维的数据
图22维护客户维和查看客户维的数据
四、实验结果
维护立方和参看立方数据,操作步骤如下:
图23维护度量
图24查看度量的数据
图25查看度量的数据结果1
图26查看度量的数据结果2
图27查看度量的数据结果3
图28查看度量的数据结果4
以上是各图对立方进行维护后查看到的数据,本实验中的度量为产品的销售数量和产品的盈利情况,我们可以从图中看到它是4维的数据,通过点击相应的按钮我们可以得到相应维数据的统计结果。
五、实验总结
本实验是用Oracle10g数据库对某企业的业务数据进行综合分析。
企业中的数据是多维的,为了把这些多维的数据存放到二维的数据库中,我们采用星型的结构放这些数据,这种结构中包括两种类型的表即维表和事实表,维表中放多维数据每个维的数据,事实表中放度量的数据,维表和事实表要连接起来是靠它们的主键,维表中的每个主键组合当作事实表中的主键,这样就可以通过连接计算来得到多维数据。
实验中用OLAP分析工具对多维的数据进行分析,必须在OLAP的分析工具中建立分析空间,在这个分析空间中建立数据的维、维的级别、层次和立方,把建立的维及立方和数据库中的相应的表建立映射关系。
这样我们就可以对维和立方进行维护,这样我们就可以查看这些多维数据的统计结果了。
通过本实验,我们学会了用二维的数据库存储多维数据的方法,通过对这些多维数据进行分析我们可以从中得到对企业有用的决策信息。
在实验的过程中遇到很多的问题,主要是在参看数据的时候我们不能得到正确的映射关系的数据。
因为数据是多维的,在数据库中输入数据的时候,主键的数据和每个层次的数据不恰当的时候就会出现问题。
通过反复的实验,录入了正确的数据,得到了正确的试验结果。
通过这次实验,使我学会在数据仓库中分析数据的知识和存储多维数据的方法。
虽然遇到了很多问题,但经过多次实验,最后得到了正确的数据。