原数据挖掘习题.docx

上传人:b****6 文档编号:15849192 上传时间:2023-07-08 格式:DOCX 页数:16 大小:58.81KB
下载 相关 举报
原数据挖掘习题.docx_第1页
第1页 / 共16页
原数据挖掘习题.docx_第2页
第2页 / 共16页
原数据挖掘习题.docx_第3页
第3页 / 共16页
原数据挖掘习题.docx_第4页
第4页 / 共16页
原数据挖掘习题.docx_第5页
第5页 / 共16页
原数据挖掘习题.docx_第6页
第6页 / 共16页
原数据挖掘习题.docx_第7页
第7页 / 共16页
原数据挖掘习题.docx_第8页
第8页 / 共16页
原数据挖掘习题.docx_第9页
第9页 / 共16页
原数据挖掘习题.docx_第10页
第10页 / 共16页
原数据挖掘习题.docx_第11页
第11页 / 共16页
原数据挖掘习题.docx_第12页
第12页 / 共16页
原数据挖掘习题.docx_第13页
第13页 / 共16页
原数据挖掘习题.docx_第14页
第14页 / 共16页
原数据挖掘习题.docx_第15页
第15页 / 共16页
原数据挖掘习题.docx_第16页
第16页 / 共16页
亲,该文档总共16页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

原数据挖掘习题.docx

《原数据挖掘习题.docx》由会员分享,可在线阅读,更多相关《原数据挖掘习题.docx(16页珍藏版)》请在冰点文库上搜索。

原数据挖掘习题.docx

原数据挖掘习题

ch1

1.讨论以下每项活动是不是是数据挖掘任务:

(fgh是)

(a)  依照性别划分公司的顾客。

(b)  依照可获利性划分公司的顾客。

(c)  计算公司的总销售额。

(d)  按学生的标识号对学生数据库排序。

(e)  预测掷一对骰子的结果。

(f)   利用历史记录预测某公司以后的股票价钱。

(g)  监视病人心率的异样转变。

(h)  监视地震活动的地震波。

(i)    提取声波的频率。

2.(ch1)数据挖掘能够在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。

3.(ch1)数据挖掘必然能够取得有趣的强关联规那么。

4.(ch1)为了提高挖掘质量,通常要进行数据预处置,包括数据清理、集成、选择、变换等。

5.(ch5){发烧,上呼吸道感染}是

(2)项集

6.企业要成立预测模型,需预备建模数据集,以下四条描述建模数据集正确的选项是(B)。

A数据越多越好

B尽可能多的适合的数据

C数据越少越好

D以上三条都正确

7.数据挖掘算法以(D)形式来组织数据。

A行B列C记录D表格

Ch2

8.(ch2)

假定用于分析的数据包括属性age。

数据元组中age的值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:

1)利用按箱平均值滑腻对以上数据进行滑腻,箱的深度是3。

说明你的步骤。

2)利用按箱边界值滑腻对以上数据进行滑腻,箱的深度是3。

说明你的步骤。

7、P98(ch3)假定大学的数据仓库包括4个维{student学生、course课程、semester学期、instructor教师},2个气宇count和avg_grade。

在最低的概念层(例如关于给定的学生、课程、学期和教师组合),气宇avg_grade存下学生的实际成绩。

为数据仓库画出雪花模式图8、P98(ch3)假定数据仓库包括4个维date,spectator,location和game,2个气宇count和charge。

其中,change是观众在给定的日期观看节目的付费。

观众能够是学生、成年人或老人,每类观众有不同的收费标准。

画出该数据仓库的星形模式图

10、(ch5)

数据库有4个事物。

设min_sup=60%,min_conf=80%

TID

日期

购买的物品

T100

99/10/15

{K,A,D,B}

T200

99/10/15

{D,A,C,E,B}

T300

99/10/19

{C,A,B,E}

T400

99/10/22

{B,A,D}

a)利用Apriori算法找出最大得频繁项集b)列出所有强关联规那么(带支持度s和置信度c)

11.(参P229)

假定希望分析爱喝咖啡和爱喝茶得人之间得关系。

搜集一组人关于饮料偏爱的信息,汇总如下:

 

咖啡

不喝咖啡

汇总

150

50

200

不喝茶

650

150

800

汇总

800

200

1000

假设支持度和置信度阈值别离为10%,50%,评估关联规那么{茶}——>{咖啡}。

(负相关)

12.(ch5,参P224)

有如下事务数据集。

试挖掘频繁项集。

(最小支持度为2)

TID

1

{a,b}

2

{bcd}

3

{acde}

4

{ade}

5

{abc}

6

{abcd}

7

{a}

8

{abc}

9

{abd}

10

{bce}

结果:

后缀

频繁项集

e

{e},{de},{ade},{ce},{ae}

d

{d},{cd},{bcd},{acd},{bd},{abd},{ad}

c

{c},{bc},{abc}{ac}

b

{b}{ab}

a

{a}

13.(ch5,参P256,17)

假定有一个购物篮数据集,包括100个事务和20个项。

若是项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%。

令最小支持度阈值和最小置信度阈值别离为10%和60%。

1)计算关联{a}——>{b}的置信度。

依照置信度气宇,这条规那么是有趣的么?

(这条规那么是不是是强关联规那么?

)(80%,是)

2){a}——>{b}是不是有趣?

(负相关,无趣)

11.求出下表的强关联规那么(ch5)

ID

P1

P2

P3

P4

1

bread

cheese

butter

water

2

water

milk

bread

noodle

3

orange

noodle

meat

beer

4

fish

softdrink

frozenmeal

bread

12、(ch6)下表给出某门课程假设干学生期中和期末考试成绩期中725081749486598365338881期末846377789075497977527490

绘数据图。

X和Y看上去具有线性联系吗?

13.(ch6)

下表是对是不是购买运算机的调查表,请依照ID3算法画出是不是购买运算机的决策树。

计数

年龄

收入

学生

信誉

归类:

买计算机?

64

不买

64

不买

128

60

64

64

不买

64

128

不买

64

132

64

32

32

63

不买

1

(参P94)

TID

有房

婚姻状况

年收入

拖欠贷款

1

单身

125K

2

已婚

100K

3

单身

70K

4

已婚

120K

5

离异

95K

6

已婚

60K

7

离异

220K

8

单身

85K

9

已婚

75K

10

单身

90K

一客户信息如下:

X=(有房=否,婚姻状况=已婚,年收入=120K)

用贝叶斯分类法,预测记录的拖欠贷款类别。

(否)

年收入

可能的分裂点

60

65

70

75

80

85

90

95

100

110

120

125

220

 

原数据集合修正为:

TID

有房

婚姻状况

年收入

拖欠贷款

1

单身

125K(>

2

已婚

100K(>

3

单身

70K(<=

4

已婚

120K(>

5

离异

95K(<=

6

已婚

60K(<=

7

离异

220K(>

8

单身

85K(<=

9

已婚

75K(<=

10

单身

90K(<=

P(是)=p(否)=

因此,他可能不拖欠贷款

最正确割裂点:

15.(CH6,参P122)

考虑如下二元分类问题的训练样本:

顾客ID

性别

车型

衬衣尺码

1

家用

C0

2

运动

C0

3

运动

C0

4

运动

C0

5

运动

加大

C0

6

运动

加大

C0

7

运动

C0

8

运动

C0

9

运动

C0

10

豪华

C0

11

家用

C1

12

家用

加大

C1

13

家用

C1

14

豪华

加大

C1

15

豪华

C1

16

豪华

C1

17

豪华

C1

18

豪华

C1

19

豪华

C1

20

豪华

C1

1)计算整个训练样本集得GINI指标()

2)计算属性顾客ID的GINI指标(0)

3)计算属性性别的GINI指标()

4)那个属性更好?

性别、车型仍是衬衣尺码?

(车型,因为其GINI指标最低)

16.(CH6,参P122)

考虑如下二元分类问题的训练样本:

实例标号

a1

a2

a3

目标类

1

T

T

1

+

2

T

T

6

+

3

T

F

5

_

4

F

F

4

+

5

F

T

7

-

6

F

T

3

-

7

F

F

8

-

8

T

F

7

+

9

F

T

5

-

1)整个训练样本集关于类属性得熵是多少?

()

2)关于这些训练样本,a1和a2的信息增益是多少?

(,)

3)关于持续属性a3,计算所有可能的划分的信息增益

是最正确割裂点。

4)依照信息增益,那个是最正确划分?

(在a1,a2,a3中)(a1)

5)依照GINI指标,那个是最正确划分?

(在a1,a2,a3中)(a1)

17.考虑如下二元分类问题得数据集(CH6,参P123)

A

B

类标号

T

F

+

T

T

+

T

T

+

T

F

-

T

T

+

F

F

+

F

F

+

F

F

+

T

T

+

T

F

+

1)计算依照属性A、B划分时得信息增益。

决策树归纳算法将会选择那个属性?

(GA=)

2)计算依照属性A、B划分时的GINI指标。

决策树归纳算法将会选择那个属性?

(不纯度降低:

,(B)

18.已知下表:

(CH6,参P124)

实例数

20

20

25

25

试成立一颗两层的决策树

19.(CH6,参,P139)贝叶斯分类

考虑两队之间的足球竞赛:

对0和1.假设65%的竞赛队0胜出,剩余得竞赛队1获胜。

队0获胜得竞赛中只有30%是在队1的主场,而对1取胜的竞赛中75%是主场获胜。

若是下一场竞赛在队1的主场进行,哪一支球队最有可能胜出呢?

(队1)

x:

东道主(0,1)y:

成功者(0,1)

队0取胜得概率:

p(y=0)=

队1取胜得概率:

p(y=1)=

对1取胜的竞赛中75%是主场获胜:

队1获胜时作为东道主的概率:

p(x=1|y=1)=

队0获胜得竞赛中只有30%是在队1的主场:

即队0取胜时队1作为东道主得概率:

P(x=1|y=0)=

比较P(y=1|x=1)和P(y=0|x=1)

P(y=1|x=1)>P(y=0|x=1)因此,队1可能取胜。

20.(ch6,参P195,8)

考虑以下数据集:

实例

A

B

C

1

0

0

1

-

2

1

0

1

+

3

0

1

0

-

4

1

0

0

-

5

1

0

1

+

6

0

0

1

+

7

1

1

0

-

8

0

0

0

-

9

0

1

0

+

10

1

1

1

+

1)估量条件概率P(A=1|+),P(B=1|+),P(C=1|+),P(A=1|-),P(B=1|-),P(C=1|-)

,,,,,

2)依照1)中的条件概率,利用朴素贝叶斯分类方式预测测试样本(A=1,B=1,C=1)得类标号。

(+)

3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。

(独立)

14、(ch7)假设数据集D含有9个数据对象(用2维空间的点表示):

A1(3,2),A2(3,9),A3(8,6),B1(9,5),B2(2,4),B3(3,10),C1(2,6),C2(9,6),C3(2,2)采纳k-均值方式进行聚类,距离函数采纳欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求:

(1)第一次循环终止时的三个簇的质心。

(2)最后求得的三个簇。

A2

A3

B2

B3

C2

C3

A1

√49

√41

√5

√64

√52

√1

B1

√52

√2

√50

√74

√1

√58

C1

√10

√36

√4

√17

√49

√16

第一次循环终止时:

(A1,C3)质心为(,2)或(3,2)

(B1,A3,C2),质心为:

或(9,6)

(C1,A2,B2,B3),质心为:

(,)或(3,8)

平方误差E=28

第二次循环

A1

A2

A3

B1

B2

B3

C1

C2

C3

3,2

0

√49

√41

√45

√5

√64

√17

√52

1

9,6

√52

√45

1

1

√53

√65

√49

0

√65

3,7

√25

√25

√26

√40

√10

√9

√2

√37

√26

第二次循环终止时:

(A1,B2,C3)质心为(,)或(2,3)

(A3,B1,C2),质心为:

或(9,6)

(A2,B3,C1),质心为:

(,)或(3,7)

平方误差E=21

第三次循环

A1

A2

A3

B1

B2

B3

C1

C2

C3

2,3

√2

√37

√45

√53

√1

√50

√9

√58

1

9,6

√52

√45

1

1

√53

√65

√49

0

√65

3,7

√25

√4

√26

√40

√10

√9

√2

√37

√37

第三次循环终止时:

(A1,B2,C3)质心为(,)或(2,3)不变

(A3,B1,C2),质心为:

或(9,6)不变

(A2,B3,C1),质心为:

(,)或(3,7)不变

平方误差E=21不变

15.(ch7)

已知四个点的坐标如下:

X坐标

Y坐标

P1

0

2

P2

2

0

P3

3

1

P4

5

1

其欧几里德距离矩阵:

P1

P2

P3

P4

P1

0

P2

0

P3

0

P4

2

0

试进行单链、全链聚类,并画出树形图。

答案:

单链:

P1

P2,p3

P4

P1

0

P2,p3

0

P4

2

0

P1

P2,p3,p4

P1

0

P2,p3,p4

0

P2,p3——P2,P3,P4——p2,p2,p4,p1

全链:

第一步同单链

P1

P2,p3

P4

P1

0

P2,p3

0

P4

0

P2,p3——P2,P3,P4——p2,p2,p4,p1

或:

P2,p3——P2,P3,P1——p2,p2,p1,p4

 

16.请将以下属性分类:

(ch7)

1)用AM和PM表示的时刻(序数变量)

2)按度测出得0和360之间的角度(区间标度变量)

3)奥运会上授予得铜牌、银牌和金牌(序数)

4)学生的性别(二元)

5)用如下值表示得透光能力:

不透明、半透明、透明(序数)

6)外衣寄放号码(当你出席一个活动时,你常常能够将你的外衣交给某个人,然后他给你一个号码,你能够在离开时来取)(名义)

17.计算下表表示的混淆矩阵得熵和纯度

娱乐

财经

国外

都市

国内

体育

合计

#1

1

1

0

11

4

676

693

#2

27

89

333

827

253

33

1562

#3

326

465

8

105

16

29

949

合计

354

555

341

943

273

738

3204

18.已知四个点的相异度矩阵:

P1

P2

P3

P4

P1

0

P2

0

P3

0

P4

0

试进行单链、全链聚类,并画出树形图。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 成人教育 > 远程网络教育

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2