数据仓库与数据挖掘课程设计Word文档下载推荐.docx

上传人:b****2 文档编号:41105 上传时间:2023-04-28 格式:DOCX 页数:27 大小:586.93KB
下载 相关 举报
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第1页
第1页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第2页
第2页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第3页
第3页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第4页
第4页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第5页
第5页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第6页
第6页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第7页
第7页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第8页
第8页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第9页
第9页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第10页
第10页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第11页
第11页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第12页
第12页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第13页
第13页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第14页
第14页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第15页
第15页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第16页
第16页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第17页
第17页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第18页
第18页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第19页
第19页 / 共27页
数据仓库与数据挖掘课程设计Word文档下载推荐.docx_第20页
第20页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

数据仓库与数据挖掘课程设计Word文档下载推荐.docx

《数据仓库与数据挖掘课程设计Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘课程设计Word文档下载推荐.docx(27页珍藏版)》请在冰点文库上搜索。

数据仓库与数据挖掘课程设计Word文档下载推荐.docx

2.创建分区13

3.创建虚拟多维数据集13

4.DTS调度多维数据集处理14

5.备份/还原数据仓库15

六、数据挖掘15

1.任务描述15

2.创建揭示客户模式的决策树挖掘模型15

3.决策树挖掘结果分析16

4.创建聚类挖掘模型17

5.聚类挖掘结果分析18

6.创建基于关系数据表的决策树挖掘模型18

7.浏览“相关性网络”视图19

一、建立数据仓库数据库结构和设置数据源

1.任务描述

数据仓库数据库是将要在其中存放多维数据集、角色、数据源、共享维度和挖掘模型的一种结构。

然后跟预先设置好的ODBC数据源建立连接。

2.建立数据仓库数据库

1)右击计算机→属性→计算机名→复制“dzsw129”,开始→MicrosoftSQLServer→AnalysisServers→AnalysisManager;

2)右击AnalysisServers,“注册服务器”,粘贴服务器名“dzsw129”;

3)展开树视图的AnalysisServers下的dzsw129;

4)单击服务器名或右击选择连接,与AnalysisServers建立连接;

5)右击服务器名,然后单击“新建数据库”命令;

6)在“数据库”对话框中输入数据库名“Winnie”,单击<

确定>

7)展开刚创建的“Winnie”数据库,可看到如下项目:

数据源、多维数据集、共享维度、挖掘模型、数据库角色.

3.设置数据源

1)右击“Winnie”数据库下的“数据源”文件夹,然后单击“新数据源”命令;

2)在“数据链接属性”对话框中,单击“提供程序”选项卡,选择“MicrosoftOLEDBProviderforODBCDrivers”;

3)单击“连接”选项卡,选择建好的ODBC数据源“FoodMart2000”;

4)单击<

按钮关闭“数据链接属性”对话框。

OK!

二、销售数据OLAP分析

以多维方式建立数据模型可简化联机业务分析,提高查询性能。

通过创建多维数据集,AnalysisManager可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。

星型架构的多维数据集由一个事实数据表和链接到该事实数据表的多个维度表组成。

2.设计星型架构多维数据集(Sales)

下面针对FoodMart2000超市1998年的销售业务数据,建立一个多维数据集,以便按产品和顾客2个主题展开分析。

具体操作如下:

1)展开树窗格的“winnie”,右击“多维数据集”,选择“新建多维数据集”→“向导…”菜单命令,打开如下“多维数据集向导”对话框。

2)向多维数据集添加度量值(事实):

3)单击<

下一步>

,在“从数据源中选择事实数据表”步骤中,展开“FoodMart2000”数据源,然后单击“sales_fact_1998”;

,设置多维数据集的度量值列:

store_sales、store_cost、unit_sales;

5)单击<

,建立维度表。

单击<

新建维度>

,打开“维度向导”对话框;

①向多维数据集添加时间维:

1)选择维度类型为“星型架构:

单个维度表”;

2)单击<

,选择维度表“time_by_day”;

,选择维度类型为“时间维度”;

,选择时间级别为“年、季度、月”;

,单击<

,输入时间维名称:

Time,并设为“共享”方式,单击<

完成>

,OK!

②向多维数据集添加产品维:

1)再次单击<

2)选择创建维度的方式为“雪花架构:

多个相关维度表”;

,选择维度表“Product”和“product_class”;

,查看连接方式,在这里可删除不要的连接,添加需要的连接;

,依次选择product_category、product_subcategory和brand_name三个维度级别;

6)单击<

,指定成员键列步骤中,不需改变主键列;

7)单击<

,在“高级选项”步骤中,根据需要选择;

8)单击<

,输入产品维名称:

Product,并设为“共享”方式,单击<

③向多维数据集添加客户维度:

2)选择创建维度的方式为“星型架构:

,选择维度表“Customer”;

,选择维度类型为“标准维度”;

,依次选择Country、State_Province、City和lname四个维度级别;

,输入客户维名称:

Customer,并设为“共享”方式,单击<

④向多维数据集添加商店维:

,选择维度表“Store”;

,依次选择store_country、store_state、store_city和store_name四个维度级别;

,输入商店维名称:

Store,并设为“共享”方式,单击<

⑤生成多维数据集:

1)回到多维数据集向导对话框,这里已 到了新建的4个维度;

,在“是否计算事实数据表行数提问时,单击<

是>

,开始计算。

3)计算完成后,命名多维数据集为:

Sales,单击<

4)关闭向导,随之启动多维数据集编辑器,其中可看到刚刚创建的多维数据集。

单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子:

⑥向多维数据集Sales中添加维度:

1)选择“插入|表…”菜单命令,弹出“选择表”对话框;

2)选择“promotion”表,单击<

添加>

,然后单击“关闭”;

3)右击“promotion”表中的“promotion_name”列,然后选择“作为维度插入”命令,一个名为“promotionName”的维度就建好了,该维度为非共享的。

4)在树窗格中重命名刚插入的维度为“Promotion”。

5)关闭编辑器,保存修改。

3.设计存储和处理多维数据集

1)展开树窗格,右击“Sales”多维数据集,选择“设计存储…”菜单命令,弹出“存储设计向导”对话框;

也可在多维数据集编辑窗口中选择“工具|设计存储…”菜单命令,打开“存储设计向导”对话框;

,然后选择“MOLAP”作为数据存储类型;

,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。

开始>

,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。

,选择“立即处理”,并单击<

,系统开始进行数据处理,处理聚合一般要花费较长一些时间。

6)处理完成后如图:

7)然后点击<

关闭>

,回到AnalysisManager窗口。

8)接下来就可浏览多维数据集的数据了。

4.OLAP分析

浏览“salary”多维数据集,通过浏览数据发现,所有的customer人数为1,079,147.47人,Canada人为98,045.46人,Mexico人为430,293.59,USA人为550,808.55。

其中在高收入水平中,USA的比例比较大,其次是Mexico。

三、人力资源数据OLAP分析

以进行雇员工资分析。

先把Employee维度创建为父子维度,然后使用该维度以及常规维度来生成HR多维数据集。

父子维度的多维数据集单个维度表中相关的两列,其中一列确定维度的成员,另一列确定成员的父代。

2.设计父子维度的多维数据集(HR)

1)展开“winnie”,右击“共享维度”,选择“新建维度|向导”菜单命令,打开“新建维度向导”对话框。

,选择维度结构为“父子:

单个维度表中相关的两列”;

,选择维度表employee;

,选择employee_id为成员键,选择supervisor_id为父键列,选择full_name为成员名。

,直到最后一步,输入维度名称:

employee;

,回到维度编辑器。

3.修改多维数据集(HR)的结构

1)展开“winnie”,右击“多维数据集”,选择“新建多维数据集|向导”菜单命令,打开多维数据集向导对话框。

2)点击<

,选择salary(工资)作事实数据表;

3)点击<

,选择salary_paid、vacation_used为度量值列;

4)点击<

,选择Employee(雇员)、Store(商店)、Time(时间)作维度;

5)点击<

,在提示是否计算事实数据表行数时选“是”。

最后输入人力资源多维数据集的名称NR,点击<

6)回到编辑器窗口,手工建立time_by_day表到salary表的联接,再建立store表到employee表中的联接,删除多余的联接。

最后如下图所示。

4.设计存储和数据集处理

1)展开树窗格,右击“HR”多维数据集,选择“设计存储…”菜单命令,弹出“存储设计向导”对话框;

6)处理完成后点击<

5.OLAP分析

浏览“HR”多维数据集,通过浏览数据发现,所有部门的人员一共为616人,其中StoreTemporaryCheck部门中的人数最多,占143人,其次是StoreTemporaryStore部门,占140人。

最少的为HQHumanResources部门,只有一个人,其次是HQInformationSystem部门和HQMarketing部门,都有3个人。

在雇佣薪水中,总工资为39431.67美元。

其中HQGeneralManagement部门薪水最高,平均每人465美元,而最低的为StoreTemporaryCheck部门,平均每人的薪水为40.由此说明,人数最多部门,都是底层收入水平。

底层收入的人为多数。

四、数据仓库及多维数据集其它操作

多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。

角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。

要定义安全性必须先创建角色,然后向这些角色授予权限。

我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。

Management角色用于管理整个数据仓库。

2.设置数据仓库及多维数据集角色及权限

创建多维数据集角色:

1)展开“多维数据集”文件夹,右击“Sales”多维数据集,并选择“管理角色”命令,打开“多维数据集角色管理器”;

2)目前还没角色显示在角色列表中。

点击<

新建…>

,打开新建角色对话框,并输入角色名:

Marketing,表示市场部;

3)在“成员资格”选项卡中单击<

按钮,接着在“添加用户和组”对话框中,添加该角色的网络用户名(如:

AdminIstrator),单击<

回到新建对话框框框;

4)其它选项可暂不设定,直接点<

,回到角色管理器窗口,角色Marketing就已在列表中了。

在这里可以看到各个角色的权限,也可修改它们的权限。

5)<

角色管理器。

然后用同样的方法创建多维数据集HR的角色HR。

创建数据库角色:

1)在“winnie”数据库下右击“数据库角色”,然后选择“管理角色”命令,打开“数据库角色管理器”窗口;

2)这里显示了“winnie”数据库中现有角色的列表(包括刚建的Marketing和HR多维数据集角色);

新建>

,在弹出的对话框中输入角色名:

Management,然后为该角色添加用户或组(如admin),并勾选多维数据集Sales和HR。

最后点击<

退出。

3.查看元数据

元数据是关于数据属性和数据结构的信息,此信息显示在AnalysisManager右窗格中。

1)查看多维数据集的元数据:

展开“多维数据集”文件夹,单击某多维数据集(如:

Sales),再单击右窗格的“元数据”;

得到如图:

2)查看维度的元数据:

展开“共享维度”文件夹,单击一个维度,再单击右窗格的“元数据”。

跟上面耳朵步骤一样。

4.创建对策

1)展开“winnie”数据库,右击“Sales”多维数据集,然后选择“编辑”命令,打开多维数据集编辑器;

2)右击“对策”文件夹,然后选择“新建对策”命令,启动对策向导,点击<

3)在“目标”框中选择“此多维数据集中的某一维度”,并单击“Customer”,点击<

4)保持“对策类型”列表不变,继续单击<

5)在“定义对策语法”步骤中键入:

” results.asp?

q=”+[Customer].currentmember.name,意思是“通过浏览器调用MSN搜索引擎搜索Customer维度中的当前客户的信息。

6)继续单击<

,输入对策名称:

CustomerInfo,点击完成。

下面是触发对策的操作步骤:

1)展开“winnie”数据库,右击“Sales”多维数据集,选择“浏览数据”命令,打开“多维数据集浏览器”窗口;

2)双击,逐级展开Customer,直到显示某客户(如USA→CA→LosAngeles→Johnson)为止,然后在该客户上右单并选择“CustomerInfo”对策,这时浏览器将启动并打开搜索页:

3)其它对策的创建和触发过程类似。

对策结果如下:

5.钻取

1)展开“winnie”数据库,右击“Sales”多维数据集并选择“编辑”命令,打开多维数据集编辑器;

2)单击“工具|钻取选项…”菜单命令,打开“钻取选项”对话框;

3)选择“启用钻取”复选框,并单击<

全选>

以选中所有列,然后单击<

,关闭对话框;

4)接下来为不同的角色分配钻取权限。

5)右击“Sales”多维数据集,并选择“管理角色…”命令,打开角色管理器;

6)单击前面创建的“Management”角色,然后在“钻取”列中单击<

...>

按钮,打开角色权限设置对话框;

7)选中“允许钻取”复选框,然后单击<

返回角色管理器;

8)这时可看到“Management”角色已获得钻取权。

9)关闭角色管理器,回到分析管理器,右击“Sales”多维数据集,并选择“浏览数据…”命令,打开数据浏览器;

10)双击展开统计列以显示不同级别的聚集数据。

右击某数据(如USA→CA→Berkeley的销售额)并选择“钻取”命令,稍等将打开明细数据查看窗口,显示原始数据源中的明细数据。

OK!

6.建立远程Internet连接

SQLServerAnalysisServices能让用户借助客户端工具,通过Internet连接访问分析服务器数据库和多维数据集。

具体步骤如下:

1)准备:

进入C盘;

2)启动客户端Excel,选择“数据|数据透视表和数据透视图报表…”菜单命令;

3)在向导第1步中选择“外部数据源”,然后单击<

4)在向导的第2步,单击<

获取数据>

,打开“选择数据源”对话框,然后选择“OLAP多维数据集”选项卡,并选中“<

新数据源>

”,然后单击<

5)在接下来的对话框中,输入数据源名称:

RemoteSales,在驱动程序列表中选择“MicrosoftOLEDBProviderforOLAPServices8.0”,然后单击<

连接>

6)在接下来的对话框中,选中“分析服务器”并输入URL(如http:

//Localhost,然后单击<

7)从连接到的远程分析服务器上选择数据库列表(如Winnie),然后单击<

,回到上级对话框;

8)选定包含所需数据的多维数据集(如Sales),然后单击<

,最后一步点击<

,回到Excel工作表;

9)接下来就可以在客户端电子表格中执行OLAP了。

五、数据仓库高级操作

将企业数据拆分为操作环境数据和分析环境数据后,历史数据就可归并到分析环境的数据仓库中以便于进行决策分析,可专用于各种复杂分析,为高层决策者服务。

2.创建分区

1)展开“Sales”多维数据集,右击“分区”文件夹,然后选择“新建分区”命令,打开分区向导,单击<

2)在“指定数据源和事实数据表”步骤中,单击<

更改>

,然后选择“FoodMart”数据源的sales_fact_1997表,然后单击<

3)继续单击<

,在“选择数据切片(可选)”步骤中,选择“Time”维度,展开“所有Time”级别并选择1997,继续单击<

4)在“指定分区类型”步骤中,选择“本地”并单击<

5)输入分区名称:

Sales97,并选择“从现有的分区(Sales)中复制聚合设计”和“完成时处理分区”,最后单击<

进行处理。

6)处理完成后单击<

,97年多维数据集将位于另一个名为Sales97的分区上了。

将来99、2000、…的数据也可分别存储在不同的分区上,这样既便于管理,也可提高查询的效率,特别对大型数据集,效果更加明显。

3.创建虚拟多维数据集

1)展开FoodMart2000数据仓库,右击“多维数据集”文件夹并选择“新建虚拟多维数据集”命令,打开向导;

,选择虚拟多维数据集要包括的逻辑多维数据集:

Sales、Warehouse,然后单击<

3)选择虚拟多维数据集的度量值:

StoreSales、WarehouseCost,继续单击<

4)选择虚拟多维数据集的维度:

Warehouse、Time、Store,继续单击<

5)最后输入虚拟多维数据集名:

CostversusSales,选择“立即处理”并单击<

处理完成后将打开虚拟多维数据集编辑器,在这里可对其修改设置,也可浏览其数据。

6)关闭编辑器回到管理器,在新建的虚拟多维数据集CostversusSales上右击选择“浏览数据”,即可在独立的浏览窗口OLAP,操作与逻辑多维数据集一样,但它并不占据磁盘空间,类似于数据库视图。

4、DTS调度多维数据集处理

1)选择“开始|程序|MicrosoftSQLServer|企业管理器”菜单命令,启动SQLServer企业管理器;

2)逐级展开,直到看到“数据转换服务”文件夹下的“本地包”,右击“本地包”并选择“新建包”命令,打开DTS包窗口,接下来为2个多维数据集定义处理任务;

3)点击DTS包窗口的左窗格中的“AnalysisServices处理任务”图标,并将其拖动到空白窗格中,弹出“AnalysisServices处理任务”对话框;

4)在对话框中,给第1个任务输入名称为Sales,并输入相应的描述,如Sales任务;

5)展开树窗格的“winnie”数据仓库,单击“Sales”多维数据集,然后在右窗格选择处理选项,选择“完整处理”;

6)同样的方法为“HR”多维数据集创建另1个处理任务:

HR任务;

7)接下来指定任务执行的顺序:

按住<

Ctrl>

键,依次选择Sales任务和HR任务,然后选择“工作流|完成时”菜单命令;

8)将左窗格中的“发送电子邮件”图标拖至右窗格中,弹出“发送邮件任务属性”对话框,设置好相关参数后点<

,然后设置其处理顺序。

最后以“Cubes处理”为名保存该包。

9)回到企业管理器窗口,刚创建的包位于“本地包”文件夹中,接下来要为该包设置执行时间;

10)右击“Cube处理”包,选择“调度包…”命令,弹出“作业调度”对话框;

11)在“每月”频率下,设置“第末一天,每1个月”,在“每日频率”下设置:

“一次发生于:

3:

00:

00AM”,单击<

5.备份/还原数据仓库

1)在AnalysisManager树窗格中右击“Winnie”,然后单击“将数据库存档”命令,打开存档对话框;

2)输入存档文件(.cab)保存位置及文件名,如d:

\ProgramFiles\MicrosoftAnalysisServices\Samples\winnie.cab,最后点击<

存档>

删除/还原数据仓库

1)在要删除的数据仓库(如“Winnie”)上右击,然后选择“删除”命令,提示确认时点击<

,该数据仓库将

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2