数据挖掘实验报告超市商品销售分析及数据挖掘.docx

上传人:b****7 文档编号:15499682 上传时间:2023-07-05 格式:DOCX 页数:15 大小:238.44KB
下载 相关 举报
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第1页
第1页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第2页
第2页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第3页
第3页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第4页
第4页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第5页
第5页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第6页
第6页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第7页
第7页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第8页
第8页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第9页
第9页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第10页
第10页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第11页
第11页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第12页
第12页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第13页
第13页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第14页
第14页 / 共15页
数据挖掘实验报告超市商品销售分析及数据挖掘.docx_第15页
第15页 / 共15页
亲,该文档总共15页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

数据挖掘实验报告超市商品销售分析及数据挖掘.docx

《数据挖掘实验报告超市商品销售分析及数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告超市商品销售分析及数据挖掘.docx(15页珍藏版)》请在冰点文库上搜索。

数据挖掘实验报告超市商品销售分析及数据挖掘.docx

数据挖掘实验报告超市商品销售分析及数据挖掘

 

数据挖掘实验报告超市商品销售分析及数据挖掘

 

 

 

 

 

 

 

 

通信与信息工程学院

课程设计说明书

课程名称:

数据仓库与数据挖掘课程设计题目:

超市商品销售分析及数据挖掘专业/班级:

电子商务(理)

组长:

学号:

组员/学号:

开始时间:

2011年12月29日完成时间:

2012年01月3日

1.绪论

(1)

1.1项目背景

(1)

1.2提出问题

(1)

2.数据仓库与数据集市的概念介绍

(1)

2.1数据仓库介绍

(1)

2.2数据集市介绍

(2)

3.数据仓库(3)

3.1数据仓库的设计(3)

3.1.1数据仓库的概念模型设计(4)

3.1.2数据仓库的逻辑模型设计(5)

3.2数据仓库的建立(5)

3.2.1数据仓库数据集成(5)

3.2.2建立维表(8)

4.OLAP操作(10)

5.数据预处理(12)

5.1描述性数据汇总(12)

5.2数据清理与变换(13)

6.数据挖掘操作(13)

6.1关联规则挖掘(13)

6.2分类和预测(17)

6.3决策树的建立(18)

6.4聚类分析(22)

7.总结(25)

8.任务分配(26)

数据挖掘实验报告

1.绪论

1.1项目背景

在商业领域中使用计算机科学与技术是当今商业的发展方向,而数据挖掘是商业领域与计算机领域的乔梁。

在超市的经营中,应用数据挖掘技术分析顾客的购买习惯和不同商品之间的关联,并借由陈列的手法,和合适的促销手段将商品有魅力的展现在顾客的眼前,可以起到方便购买、节约空间、美化购物环境、激发顾客的购买欲等各种重要作用。

1.2提出问题

那么超市应该对哪些销售信息进行挖掘?

怎样挖掘?

具体说,超市如何运用OLAP操作和关联规则了解顾客购买习惯和商品之间的关联,正确的摆放商品位置以及如何运用促销手段对商品进行销售呢?

如何判断一个顾客的销售水平并进行推荐呢?

本次实验为解决这一问题提出了解决方案。

2.数据仓库与数据集市的概念介绍

2.1数据仓库介绍

数据仓库,英文名称为DataWarehouse,可简写为DW或DWH,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。

........

2.2数据集市介绍

数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。

.......

3.数据仓库

3.1数据仓库的设计

3.1.1数据库的概念模型

3.1.2数据仓库的模型

数据仓库的模型主要包括数据仓库的星型模型图,我们创建了四个

维表和一个事实表。

四个维表为:

item维表,time维表,branch维表,location维表。

事实表为:

sales事实表。

其中,

3.2数据仓库的建立

3.2.1数据仓库数据集成

我们小组粗略的统计了超市一年的销售记录,并建立了数据库。

其....

当然,这只是最初的表,后面还要进行数据清理与转换,对其进一步改进,以便于数据挖掘。

3.2.2建立维表

item维表

branch维表

location维表

sales事实表

4.OLAP操作

按时间上卷:

切块:

按片查询:

整个数据立方体:

5.数据预处理

5.1描述性数据汇总

【saleID】S*:

销售号(笔数)

【customerID】C*:

顾客编号

【productID】P*:

购买的商品号

【timeID】T*:

时间号(月)

5.2数据清理与变换

数据清理:

(1)初始表格在前面已经给出,每笔交易中购买的商品不止一

....

数据变换:

对不同的数据类型做不同的变换。

比如男女分别用1,0表示;高中档商品用1,0表示;收入统一除以10000。

6.数据挖掘操作

6.1关联规则挖掘

6.1.1频繁一项集筛选

I1支持度的代码及结果为:

输出结果为:

24

其他一项候选集同理

6.1.2、频繁二项集筛选

频繁二项集候选集为(I1,I18),(I1,I2),(I1,,I3),(I1,I4),(I1,I5),(I1,I7),

(I18,I2),(I18,I3),(I18,I4),(I18,I5),(I18,I7),

(I2,I3),(I2,I4),(I2,I5),(I2,I7),

(I3,I4),(I3,I4),(I3,I5),(I3,I7),

(I4,I5),(I4,I7),

(I5,I7)

(I1,I18)的支持度代码和结果为:

输出结果为:

15

I3和I18支持度的代码和结果为:

输出结果为:

14

I1和I3支持度的代码和结果为:

输出结果为:

18

同理可得:

6.1.3、频繁三项集筛选

频繁三项集候选集为:

(I1,I3,I18)

(I1,I3,I18)的支持度代码和结果为:

输出结果为:

13

综上可得I1、I3和I18的支持度和置信度为:

[]cs

)1

)2

?

?

)3

X

buys

item

buys

X

item

item

X

transcatio

x,

buys

n

[]%

buys

I

X

buys

buys

I

X

?

X

x?

transcatio

n

%,

18

12

93

)3

)1

I

[]%

I

X

buys

X

buys

I

buys

n

X

x?

transcatio

?

%,

)3

12

87

18

)1

I

[]%

buys

I

X

I

X

buys

X

buys

x?

transcatio

n

?

I

)1

12

%,

72

)3

18

由上可知:

1.顾客习惯一起购买商品I1,I3,I18,即牛奶面包和电视机

2.所以超市可以将牛奶面包电视机摆放在一起

6.2分类和预测

预测的结果可以用关联规则的结果和OLAP的结果来说明。

预测结果如下:

1.根据OLAP从日到月上卷操作,1月为销售旺季,商店可以在此期间加大供应量,以获得更大利润。

2.顾客对牛奶的需求很大,且为蒙牛牛奶

3.顾客对面包的需求也很大,且为安琪面包

4.对步步高电视机的需求也很大。

6.3决策树的建立:

通过研究顾客的属性,分析这些属性对顾客购买商品档次的影响,建立决策树,预测顾客购买商品的档次。

6.3.1.选择最佳分裂点:

1)源数据:

(部分展示)

数据转换后数据:

(部分展示)

2)选取过程具体操作:

3)经比较gain()的值得出,选取sex。

6.3.2.继续寻找下一个分裂点:

1)源数据:

(部分展示)(按sex分类)

F:

(49条记录)

M:

(51条记录)

2)选取过程具体操作:

F:

M:

M中找到的分裂点为income

6.3.3.分裂的数据结果部分如图:

F:

M的操作以此类推,得到的结果如下:

由此可得出决策树为:

6.4聚类分析

6.4.1原始数据:

6.4.2数据转换:

6.4.3使用欧几里得距离,K=3,K均值:

第一次聚类分析:

第二次聚类分析:

第三次聚类分析:

(4)三次聚类分析结果:

第一次聚类结果为:

new1:

C1,C3,C5,C8,C9,C10,C11,C15,C16,C18,C20new2:

C2,C4,C6,C9,C14,C19

new3:

C7,C12,C13,C17

平方误差:

8.82

第二次聚类结果为:

n1:

C1,C7,C8,C10,C11,C15,C16,C20

n2:

C2,C3,C4,C5,C6,C9,C14,C18,C19

n3:

C12,C13,C17

平方误差:

6.25

第三次聚类结果为:

n1:

C1,C7,C8,C10,C11,C15,C16,C20

大体为年轻、收入低,买中等品的一类人群

n2:

C2,C3,C4,C5,C6,C9,C14,C18,C19

大体为年龄、收入于购买商品成反向的人群

n3:

C12,C13,C17

其他人群

平方误差:

4.79

7.总结

8.任务分配

-全文完-

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2