数据挖掘概念与技术第2版习题答案Word格式文档下载.docx

资源描述

数据挖掘概念与技术第2版习题答案Word格式文档下载.docx

《数据挖掘概念与技术第2版习题答案Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《数据挖掘概念与技术第2版习题答案Word格式文档下载.docx（21页珍藏版）》请在冰点文库上搜索。

数据挖掘概念与技术第2版习题答案Word格式文档下载.docx

对象－关系数据库的设计是基于面向对象的编程范式的数据是大量对象类和类层次结构组织。

每个实体在数据库中被视为一个对象。

该对象包含一组变量描述的对象，一组消息的对象可以使用的沟通与其他物体或与其余的数据库系统，以及一套方法，每种方法持有的代码实现一个消息。

空间数据库包含空间有关的数据，这可能是代表的形式，栅格或矢量数据。

栅格数据包括n维位图或像素地图，矢量数据是由点，线，多边形或其他种类的图元处理，一些例子包括地理空间数据库（图）数据库，超大规模集成电路芯片设计，以及医疗和卫星图像数据库。

文本数据库包含文本文件或其他长句或段落格式的文字说明，如产品规格、误差或错误报告、警告信息、总结报告、说明或其他文件。

多媒体数据库存储的图像，音频，视频数据，并应用于诸如图像、基于内容的检索、语音邮件系统、视频点播系统、互联网和以语音为基础的用户界面。

流数据是一类新的数据的产生和分析，其中数据动态地从观测平台（或窗口）流进或流出。

特点：

海量甚至可能无限，动态变化，以固定的次序流进或流出，只允许一遍或少数几遍扫描，要求快速响应时间。

如电力供应、网络通信、股票交易、电信、Web点击流、视频监视和气象或环境监控数据。

万维网上提供丰富的、全世界范围内的联机信息服务，其中的数据对象链接在一起便于交互访问。

与之关联的分布式信息服务的例子如：

美国在线，雅虎！

AltaVista等。

翻译结果重试

抱歉，系统响应超时，请稍后再试

∙支持中文、英文免费在线翻译

∙支持网页翻译，在输入框输入网页地址即可

∙提供一键清空、复制功能、支持双语对照查看，使您体验更加流畅

1.6定义下列数据挖掘功能：

特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩（GPA：

Gradepointaversge）的信息，

还有所修的课程的最大数量。

􀁺

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：

major（X,“computingscience”）⇒owns（X,“personalcomputer”）

[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%

（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具：

分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。

形成的每一簇可以被看作一个对象类。

聚类也便于分类法组织形式，将观测组织成类分

层结构，把类似的事件组织在一起。

数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析

2.2假设给定的数据集的值已经分组为区间。

区间和对应的频率如下。

―――――――――――――――――――――――――――――――――――――

年龄频率

1~5200

5~15450

15~20300

20~501500

50~80700

80~11044

计算数据的近似中位数值。

解答：

先判定中位数区间：

N=200+450+300+1500+700+44=3194；

N/2=1597

∵200+450+300=950<

1597<

2450=950+1500；

∴20~50对应中位数区间。

∴median=32.97岁。

2.4假定用于分析的数据包含属性age。

数据元组的age值（以递增序）是：

13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。

（a）该数据的均值是什么？

中位数是什么？

均值=（13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70）/27

=29.96

中位数应是第14个,即x14=25=Q2。

（b）该数据的众数是什么？

讨论数据的峰（即双峰、三峰等）。

这个数集的众数有两个：

25和35,发生在同样最高的频率处,因此是双峰众数。

（c）数据的中列数是什么？

数据的中列数是最大数和最小数的均值。

即：

midrange=（70+13）/2=41.5。

（d）你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q3）吗？

数据集的第一个四分位数应发生在25%处，即在（N+1）/4=（27+1）/4=7处。

所以：

Q1=20。

而第三个四分位数应发生在75%处,即在3×

（N+1）/4=21处。

Q3=35

（e）给出数据的五数概括。

一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。

它给出了分布形状良好的汇总+并且这些数据是：

13、20、25、35、70。

（f）画出数据的盒图。

（g）分位数—分位数图与分位数图的不同之处是什么？

分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。

这样,他可以展示所有数的分位数信息,而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。

但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。

两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。

一条线（y=x）可画到图中+以增加图像的信息。

落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。

反之,对落在该线以下的点则低。

2.7使用习题2.4给出的age数据回答下列问题：

（a）使用分箱均值光滑对以上数据进行光滑，箱的深度为3。

解释你的步骤。

评述对于给定的数据，该技术的效果。

（b）如何确定数据中的离群点？

（c）对于数据光滑，还有哪些其他方法？

解答：

评述对于给定的数据，该技术的效果。

用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤：

步骤1：

对数据排序。

（因为数据已被排序，所以此时不需要该步骤。

）

步骤2：

将数据划分到大小为3的等频箱中。

箱1：

13，15，16箱2：

16，19，20箱3：

20，21，22

箱4：

22，25，25箱5：

25，25，30箱6：

33，33，35

箱7：

35，35，35箱8：

36，40，45箱9：

46，52，70

步骤3：

计算每个等频箱的算数均值。

步骤4：

用各箱计算出的算数均值替换每箱中的每个值。

箱1：

44/3，44/3，44/3箱2：

55/3，55/3，55/3箱3：

21，21，21

箱4：

24，24，24箱5：

80/3，80/3，80/3箱6：

101/3，101/3，101/3

箱7：

121/3，121/3，121/3箱9：

56，56，56

聚类的方法可用来将相似的点分成组或“簇”，并检测离群点。

落到簇的集外的值可以被视为离群点。

作为选择，一种人机结合的检测可被采用，而计算机用一种事先决定的数据分布来区分可能的离群点。

这些可能的离群点能被用人工轻松的检验，而不必检查整个数据集。

其它可用来数据光滑的方法包括别的分箱光滑方法，如中位数光滑和箱边界光滑。

作为选择，等宽箱可被用来执行任何分箱方式，其中每个箱中的数据范围均是常量。

除了分箱方法外，可以使用回归技术拟合成函数来光滑数据，如通过线性或多线性回归。

分类技术也能被用来对概念分层，这是通过将低级概念上卷到高级概念来光滑数据。

2.9假设医院检测随机选择的18个成年人年龄和身体脂肪数据，得到如下结果：

（a）计算年龄和脂肪百分比的均值、中位数和标准差.

年龄均值=（23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61）/18=836/18=46.44,

中位数=（50+52）/2=51,

标准差=方差的平方根=开根号（1/n[∑（Xi）2-1/n（∑Xi）2]）=开根号1/18[2970.44]=12.85.

脂肪百分比均值=28.78,中位数=30.7,标准差=8.99.

（b）绘制年龄和脂肪百分比的盒图

（c）根据这两个属性,绘制散布图,各q-q图

q-q图散布图

（d）根据z-score规范化来规范化这两个属性（P46）

（e）计算相关系数（皮尔逊积矩系数）.这两个变量是正相关还是负相关?

ra,b=∑（ai-A）（bi-B）/NσAσB=（∑（aibi）-NAB）/NσAσB=（∑（aibi）-18*46.44*28.78）/18*12.85*8.99=0.82