数据挖掘11资料.docx

资源描述

数据挖掘11资料.docx

《数据挖掘11资料.docx》由会员分享，可在线阅读，更多相关《数据挖掘11资料.docx（19页珍藏版）》请在冰点文库上搜索。

数据挖掘11资料.docx

数据挖掘11资料

第一章

1.数据挖掘的定义：

从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。

2.数据挖掘的过程：

①确定业务对象②数据准备③数据挖掘④结果分析与知识同化

3.数据挖掘的功能：

①概念描述②关联分析③分类与预测④聚类分析⑤偏差分析⑥序列模式发现

4.数据挖掘的常用方法：

①聚类分析②决策树③人工神经网络④粗糙集⑤关联规则挖掘⑥统计分析

5.数据仓库（BW）：

是面向主题的、集成的、具有时间特征的、稳定的数据集合，用以支持经营管理中的决策制定过程。

5.数据仓库和数据挖掘的关系（理解）

联系：

①数据仓库为数据挖掘提供了更好更广泛的数据源。

②数据仓库为数据挖掘提供了新的支持平台。

③数据仓库为更好地使用数据挖掘工具提供了方便

④数据挖掘为数据仓库提供了更好的决策支持。

⑤数据挖掘对数据仓库的数据组织提出了更高的要求。

⑥数据挖掘还为数据仓库提供广泛的技术支持。

区别：

①数据仓库是一种存储技术，它包含大量的历史数据、当前的详细数据及其综合数据，它能为不同用户的不同决策需要提供所需的数据和信息。

②数据挖掘是从人工智能机器学习中发展起来的，它研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。

6.常用的数据挖掘工具：

SPSS、SAS、SQLSever2005、Weka、MATLAB.

第二章

1.数据仓库的概念：

数据仓库就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的的数据集合。

2.操作型数据与分析型数据的区别

3.数据仓库的特点①数据仓库的数据是面向主题的；②数据仓库的数据是集成的；

③数据仓库的数据是不可更新的；④数据仓库的数据是随时间不断变化的。

4.元数据：

描述了数据仓库的数据和环境，即关于数据的数据。

5.元数据的分类：

按元数据的类型:

①关于基本数据的元数据②用于数据处理的元数据③关于企业组织结构的元数据

按抽象级别：

①概念级②逻辑级③物理级

按元数据承担的任务：

①静态元数据②动态元数据

从用户的角度：

①技术元数据②业务元数据

6.粒度：

是指数据仓库的数据单位中保存数据细化和综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答查询问题的细节程度。

7.分割：

是指将数据分散到各自的物理单元中，以便能独立处理，以提高数据处理效率。

8.数据分割的标准可以根据实际情况来确定，通常可选择按日期、地域或业务领域等来进行分割，也可以按多个分割标准的组合来进行，但一般情况分割标准应包括日期项。

9.数据组织形式：

①简单堆积结构②轮转合综结构③简单直接结构④连续结构

10.数据仓库的模型：

①概念数据模型、②逻辑数据模型、③物理数据模型

11.数据仓库模型也可分为：

高层数据模型、

中间层数据模型（连接数据组、基本数据组、二次数据组、类型数据组）

底层数据模型

12.数据仓库的设计步骤：

（理解每个步骤具体做什么工作）

①概念模型设计：

界定系统边界和确定主要的主题域及其内容

②技术准备工作：

进行技术评估和技术环境的准备

③逻辑模型设计：

主要工作包括分析主题域，确定当前要装载的主题，确定粒度层次划分，确定数据分割策略，关系模式定义，记录系统定义。

④物理模型设计：

确定数据的存储结构，确定索引策略，确定数据存放位置，确定存储分配

⑤数据仓库生成：

主要进行接口设计和将数据装入。

数据装入后，还要在其上建立数据仓库的应用

⑥数据仓库运行与维护：

开发决策支持系统DNS的应用，进一步理解需求，调整和完善数据仓库系统，维护数据仓库。

13.SQL提供的解决方案体系结构

SQLserver2005负责底层的数据库和数据仓库管理

SQLserver2005集成服务（SSIS）负责数据的抽取、装换和装载

SQLserver2005分析服务（SSAS）负责OLAP分析和数据挖掘

SQLserver2005报表服务（SSRS）负责前端展示。

第三章

1.OLAP和OLTP的区别：

OLAP（联机分析处理）是决策支持系统的有机组成部分。

OLTP（联机事务处理）

2.OLAP涉及到的基本概念：

①维：

是人们观察数据的特定角度。

例如：

时间、企业性质。

②维层次：

人们观察数据的某个特定角度（即某个维）还可以存在细节程度不同的各个描述方面（时间维：

日期、月份、季度、年），称这多个描述方面为维的层次。

③维成员：

维的一个取值称为该维的一个维成员，是数据项在某维中位置的描述

④多维数据集：

是决策支持的支柱，也是OLAP的核心，有时也称为立方体或超立方体。

⑤数据单元：

在多维数据集中每个维都选定一个维成员后，这些维成员的组合就唯一确定了

一个数据单元。

3.OLAP定义：

使分析、管理或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业位特性的信息进行快速、一致、交互地存取，从而获得对数据更深入了解的一类软件技术。

4.OLAP特征：

①快速性②可分析性③多维性④信息性（多维性是OLAP的关键属性）

5.OLAP中的多维分析操作：

钻取、切片和切块、旋转。

钻取：

改变多维饿层次，变换分析的粒度，包括向下钻取和向上钻取。

向下钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数，向上钻取从汇总数据深入到细节数据进行观察或增加新维。

切片和切块：

切片是在给定数据立方体的一个维上进行选择操作，得到一个二维平面数据。

切块是在数据立方体的连个或多个维上进行选择操作，得到一个立方体。

旋转：

变换维的方向，即在表格中重新安排维的放置。

6.MOLAP（多维联机分析处理）利用一种专有的多维数据库来存储OLAP分析所需要的数据，数据采用n维数组的多为方式存储，形成“立方体”的结构，并以多维视图的方式显示。

7.MOLAP优缺点：

（了解）

优点：

能迅速地响应决策分析人员的分析请求并快速地将分析结果返回给用户;

缺点：

是限制了MOLAP结构的灵活性。

①用户很难对维数进行动态变化；②对数据变化的适应能力较差；③处理大量细节数据的能力差。

8.ROLAP（关系联机分析处理）的底层数据库是关系型数据库，其数据以及计算结果均直接由关系数据库获得，并且以关系型的结果进行多维数据的标识和存储。

9.模型：

星状模式

雪花状模式

10.MOLAP和ROLAP的比较（理解）

10.HOLAP是混合型联机分析处理

11.OLAP的衡量标准：

（了解）

准则1OLAP模型必须提供多维概念视图

准则2透明性原则

准则3存取能力原则

准则4稳定的报表性能

准则5客户、服务器体系结构

准则6维的等同性准则

准则7动态的稀疏矩阵处理准则

准则8多用户支持能力准则

准则9非受限的跨维操作

准则10直观的数据操纵

准则11灵活的报表生成

准则12非受限维与聚集层次

第四章

1.原始数据存在的问题：

①不一致②重复③不完整④含噪声⑤维度高⑥数据不平衡

2.数据与预处理的方法和功能：

（掌握）

①数据清洗②数据集成③数据变换④数据归约

①数据清洗要去除源数据集中的噪声数据和无关数据，处理遗漏数据和清洗脏数据，空缺值，识别删除孤立点等。

②数据集成对数据进行匹配，对数据值冲突检测与处理。

③数据变换把数据或者数据的构造进行规范化处理。

④数据归约使数据量减少，这样进行挖掘的性能和效率会得到很大的提高。

3.数据清洗<1>首先要进行属性的选择：

①尽可能赋予属性名和属性值明确的含义②统一多数据源的属性值编码

③处理唯一属性④去除重复属性⑤去除可忽略字段⑥合理选择关联字段

<2>空缺值处理（记住）：

①忽略该记录②去掉属性③写空缺值④使用默认值

⑤使用属性平均值⑥使用同类样本平均值⑦预测最可能的值

<3>噪声数据处理：

分箱、聚类、回归

分箱：

（掌握分箱的方法，给出一系列数据要你按照什么统一权重来进行分箱。

分箱之后还需要将数据进行平滑处理。

）四种方法：

①统一权重。

（深分箱法），将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱的权重，也称箱子的深度。

这是最简单的一种分箱法。

②统一区间。

（等宽分箱法），使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

③最小熵。

使在各区间分组内的记录具有最小的熵。

熵是信息理论中数据无序程度的量度标准，提出信息熵的基本目的，是找出某种符号系统的信息量和冗余度之间的关系，以便能使用最小的成本和消耗来实现最高效率的数据储存、管理和传递。

某个字符（或数值）的信息量的基本计算公式：

I=—1b（p）

I表示信息量，p表示某种字符出现的概率，信息量的单位是比特。

数据集的熵公式：

H=∑p1b（1/p）

数据集的熵越低，说明数据之间的差异越小，最小熵划分就是为了使每箱中的数据具有最好的相似性。

给定箱的个数，如果考虑所有可能的分箱情况，最小熵方法得到的箱应该是具有最小熵的分箱。

④用户自定义区间。

当用户明确希望观察某些区间范围内的数据分布时，可以根据需要自定义区间。

例题（掌握）：

选定数据集中，客户收入属性income排序后的值：

800100012001500150018002000230025002800300035004000450048005000.

（1）统一权重：

设定权重（箱子深度）为4，分箱后

Ø箱1：

800100012001500

Ø箱2：

1500180020002300

Ø箱3：

2500280030003500

箱4：

4000450048005000

（2）统一区间：

首先确定数值的数目，比如4，根据数据集的取值范围[8005000]，每个箱子的宽度为（5000-800）/4。

得到4个宽度相等的子区间：

[800,1850）、[1850,2900）、[2900,395050）和[3950,5000）。

分箱后

Ø箱1：

80010001200150015001800

Ø箱2：

2000230025002800

Ø箱3：

30003500

Ø箱4：

4000450048005000

（3）用户自定义：

如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000、和4000元以上。

分箱后

Ø箱1：

800

Ø箱2：

100012001500150018002000

Ø箱3：

2300250028003000

Ø箱4：

35004000

Ø箱5：

450048005000

平滑（掌握）：

分箱目的是对各个箱子中的数据进行处理，所以完成分箱后，就要考虑选择一种方法对数据进行平滑，使得数据尽可能接近。

（1）按平均值平滑。

对同一箱中的数据求平均值，然后用这个平均值替代该箱子中的所有数据。

Ø箱1：

130013001300130013001300

Ø箱2：

2400240024002400

Ø箱3：

32503250

箱4：

4575457545754575

（2）按边界值平滑。

对同一箱中的每一个数据，观察它和箱子两个边界值的距离，用距离较小的那个边界值替代该数据。

Ø箱1：

800800800180018001800

Ø箱2：

2000200028002800

Ø箱3：

30003500

箱4：

4000400050005000

（3）按中值平滑。

取箱子中的中值，用来替代箱子中的所以数据。

中值也称中数，将一些数据排序后，如果这些数据是奇数个，中值就是位于最中间位置的哪一个；如果是偶数个，中值应该是中间两个数的平均值。

Ø箱1：

135013501350135013501350

Ø箱2：

2400240024002400

Ø箱3：

32503250

Ø箱4：

4650465046504650

<4>.不平衡数据的处理：

过抽样、欠抽样

4.数据集成：

模式匹配、数据冗余、数据值冲突

5.数据变换：

平滑、聚集、数据概化、规范化、属性构造

6.数据变换的规范化方法：

（给出一个数据，规范化到01区间，求出规范化之后的值）将数据按比例缩放，使之落入一个特定的区域。

方法1：

最小—最大规范化。

假设数据的取值区间为[old_min,old_max],最小最大规范化即把这个区间映射到新的取值区间[new_min,new_max]。

对于任意一个在原来区间中的变量，在新的区间中都有一个值和它对应，这是一个线性变换过程，变量被映射到新区间的值通过公式：

x’=x-old_min/old_max-old_min（new_max-new_min）+new_min计算得出。

X是属性的真实值，x’是规范化后的值。

方法2：

零-均值规范化。

既根据属性值的平均值和标准差进行规范化即：

x’=x-X/бx。

其中X为所有样本属性值的平均值，而бx为样本的标准差。

当属性值范围未知的时候，可以使用此方法。

方法3：

小数定标规范化。

通过移动属性值的小数点位置进行规范化。

此方法需在属性取值范围已知的条件下使用，小数点移动的位数根据属性的最大值确定，公式为：

x’=x/10^α其中，α是使Max（|x’|）<1的最小整数。

7.数据归约：

离散化与概念分层的3-4-5规则（掌握）

（1）如果待划分的区间在最高位上包含3、6、7或9个不同的值，则将该区间划分成3个区间。

其中，如果是3、6或9，则划分成等宽的3个区间，如果是7，则按2-3-2划分成3个区间。

（2）如果待划分的区间在最高位上包含2、4或8个不同的值，则把它划分成4个等宽的区间。

（3）如果待划分区间最高位上包含1、5或10个不同的值，则把它划分成5个等宽的区间。

在每个区间上递归地应用3-4-5规则，生成数据的概念分层，直到满足预先设定的终止条件。

图4-10表示的是一个用3-4-5规则构造概念分层的例子。

数据集D是某公司每月利润增长数据，数据单位为千元，取值范围在-13~32之间，对最大最小值在10（千元）上取整，得到一个区间（-20,40）。

这个区间就是应用3-4-5规则的区间。

考察区间[-20,40）,最高位有6个不同的取值：

-2、-1、0、1、2、3，根据3-4-5规则，把数据集D划分为3个等宽的区间D1、D2、D3，取值区间分别为[-20,0）、[0,20）和[20,40）。

这3个等宽的区间最高位分别包含两个不同的取值-2、-1，0、1和2、3，所以划分成4个等宽的区间，D1划分为D11、D12、D13和D14，D2和D3也相同。

如果数据集D的分布曲线呈现图4-11所示的情况，

区间两端的值所占的比例非常少，可以根据情况设置一个置信区间（如5%~95%），以这两个点上的值作为初始划分的区间，如[-9,28],同样在10（千元）上取整，得到区间[-10,30]，则第一层划分情况如图4-12所示。

可以看到，由于设置了置信区间[5%,95%]，实际上集合D1的左边界和D4的右边界分别是-10和30，不包含集合D的实际边界-13和32，所以应该在两端补充两个集合表示缺失的数据，如图4-13所示。

对区间D0~D5应用3-4-5规则，得到的分层如图4-14所示。

可以递归地划分下去，直到满足一定的要求，如区间大小达到预定的阈值。

第五章

1.关联规则概念：

用来发现在一个事件中出现的不同项的相关性，即找出事务中频繁发生的项或属性的所有子集，以及项目之间的相互关联性。

2.关联规则所涉及的相关概念

D：

事务数据库；I：

项目集合；T：

数据库中的事务；X：

项集，即项目的集合；k：

包含k个项目的集合。

①支持度s：

项集X的支持度，表示数据库中包含项集X的交易数据的天数

②频繁项集：

也称为频繁模式，指支持度大于用户指定的最小支持度的项集。

③频繁k-项集：

长度为k的频繁项集

④规则A=>B的置信度：

D中包含项集A∪B的事务数和包含项集A的事务数的比值。

表示当项集A出现时，项集B出现的概率，c（A=>B）=s（A∪B）/s（A），置信度大于用户指定的最小置信度值的规则是可信的。

3.关联规则挖掘的两个步骤：

①找出D中所有的频繁项集；②从频繁项集中产生关联规则

4.关联规则的分类

①基于规则中处理的变量类别分类：

分为布尔型和数值型。

布尔型关联规则处理的值是离散的、种类化的，关联规则显示这些变量之间的关系；数值型关联规则是对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值关联负责中也可以包含种类变量。

②基于规则中数据的抽象层次分类：

单层关联规则和多层关联规则

单层关联规则中，所有的变量都不考虑现实数据具有多个不同层次的特点

多层关联规则中，考虑数据的多层性。

③基于规则中涉及的数据维数的分类：

单维和多维

单维：

处理单个属性中的某些关系

多维：

处理多个属性之间的某些关系

④基于模式与规则之间的相互关系分类：

完全频繁模式挖掘、最大频繁模式挖掘和闭合频繁模式挖掘。

5.Apriori算法（掌握）

例：

假定数据库D中包含项目{I1}、{I2}、{I3}、{I4}、{I5}、，用户要求的最小支持度阈值是20%。

TID

项ID的列表

T10

I1，I2，I5

I2，I4

I2，I3

I1，I2，I4

I3，I4

I1，I3

I1，I2，I3，I5

I2，I3，I4

I2，I3，I5

I3，I5

支持度

第一次迭代

第二次迭代

第三次迭代

置信度

6.FP-Growth算法（掌握）

第六章

1.数据分类是数据挖掘的主要内容之一，主要是通过分析训练数据样本，产生关于类别的精确描述。

聚类简单地说就是把相似的东西分到一组。

区别：

分类通常由分类规则组成，可以用来对未来的数据进行分类和预测，具备对未知数据进行分类的能力，这种提供训练数据的过程叫做监督学习。

聚类是把相似的东西聚到一起，一个聚类算法通常只需要知道如何计算相似度就可以开始工作，这种不需要使用训练数据的过程叫做无监督学习。

2.分类由训练集和测试集组成。

训练集：

数据库中为建立模型而被分析的数据元组形成训练集。

测试集：

用于评估分类模型的准确率。

分类的2个阶段：

a.模型训练阶段——训练集

b.使用模型——分类阶段

3.预测是构造和使用模型评估无标号样本类，或评估给定的样本可能具有的属性或区间值。

4.决策树方法（也称判定树算法）主要用于分类和预测。

5.决策树的表现形式类似于流程图的树结构，每个内部结点（方形框）代表对某个属性的一次检测。

每个叶结点（椭圆框）代表一个类。

6.决策树学习的基本算法是贪心算法，采用自顶向下的递归方式构造决策树。

7.ID3算法的基本思想：

得出节点最少的决策树。

8.ID3算法的核心思想是以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。

该算法采用自顶向下的贪婪搜索遍历可能的决策树空间。

9.ID3算法流程：

1）从训练集中随机选择一个既含正例又含反例的子集。

2）用“建树算法”对当前窗口形成一颗决策树。

3）对训练集（窗口除外）中例子用所得决策树进行类别判定，找出错判的例子。

4）若存在错判的例子，把他们插入窗口，转

（2），否则结束。

10.信息增益是用来衡量给定的属性区分训练样例的能力，而ID3算法在增长树的每一步使用信息增益从候选属性中选择属性。

11.为了精确地定义信息增益，先定义信息论中广泛使用的一个度量标准，称为熵。

12.C45算法是用信息增益率来选择决策属性，其核心算法是ID3算法，他继承了ID3算法的全部优点，并再此基础上增加了对连续属性的离散化、对未知属性的处理和产生规则等功能，客服了ID3算法的不足。

13.ID3和C45算法的区别：

ID3算法是用信息增益量来选择决策属性。

C45算法是用信息增益率来选择决策属性。

第七章

1.贝叶斯定理：

P（A|B）=（P（B|A）*P（A））/P（B）

2.朴素贝叶斯定义：

在假设待分类项的各个属性相互独立的情况下，构造出来的分类算法。

3.EM算法：

求参数极大似然估计的一种方法

4.回归分析的定义及分类

定义：

确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

分类：

①回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；

②按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

展开阅读全文