大数据知识点梳理Word文档格式.docx

资源描述

大数据知识点梳理Word文档格式.docx

《大数据知识点梳理Word文档格式.docx》由会员分享，可在线阅读，更多相关《大数据知识点梳理Word文档格式.docx（26页珍藏版）》请在冰点文库上搜索。

大数据知识点梳理Word文档格式.docx

基于统计度量和图的简单数据汇总、基于数据立方体的OLAP上卷操作、面向属性的归纳技术。

数据特征的输出可以用多种形式提供：

饼图、条图、曲线、多位数据立方体、多维表；

数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

（2）挖掘频繁模式、关联和相关性

频繁模式包括频繁项集（基础）、频繁子序列和频繁子结构。

（3）用于预测分析的分类与回归

分类预测类别标号，而回归建立连续值函数模型。

回归分析是最常用的数值预测统计学方法，相关分析可能需要在分类和回归之前进行，它试图识别与分类和回归过程显著相关的属性。

（4）聚类分析

聚类分析数据对象，而不考虑类标号。

（5）离群点分析

大部分数据挖掘都将离群点作为噪声或异常而丢弃，然而在一些应用中可以做离群点分析或异常挖掘

5、支持度与置信度

支持度表示事物数据库中满足规则的事物所占的百分比，置信度评估所发现的规则的确信程度。

准确率即被一个规则正确分类的数据所占的百分比，覆盖率类似于“支持度”表示规则可以作用的数据所占的百分比。

第二章认识数据

1、数据对象与数据类型

数据对象又称样本、实例、数据点或对象，数据对象存放在数据库中，则他们为数据元组，即数据库的行对应于数据对象，列对应于属性。

属性：

表示数据对象的一个特征（属性、维、特征、变量）

标称属性：

一些符号或事物的名称（分类的或枚举的），标称属性可以取整数值，但是不能把它视为数值属性。

二元属性：

是一种标称属性，只有两种状态，0或1,0通常表示该属性不出现，1表示出现。

二元属性有对称与非对称两种。

序数属性：

可能的值之间具有意义的序或秩评定，但是相继值之间的差是未知的。

中心趋势可以用它的众数和中位数表示，但不能定义均值。

数值属性：

定量的，用整数或实数值表示，数值属性可以是区间标度的或比率标度的。

除了中心趋势度量中位数和众数之外，还可以计算均值。

比率标度属性是具有固有零点的数值属性。

离散属性与连续属性：

离散属性具有有限或无限可数个值，可以用或不用整数表示

2、数据的基本统计描述

（1）中心趋势度量，度量数据分布的中部或中心位置，包括均值、加权平均、中位数、众数和中列数；

均值对极端值比较敏感，为了抵消少数极端值的影响，可以使用截尾均值；

对于非对称数据，数据中心最好用中位数；

众数是集合中出现最频繁的值，分为单峰、双峰和三峰，对于适度倾斜的单峰数值数据，有经验公式：

均值-众数=3*（均值-中位数）；

中列数是数据集的最大和最小值的平均值。

（2）数据的散布，最常见度量是极差、四分位数、四分位极差、五数概括和盒图，以及数据的方差和标准差。

极差：

最大值与最小值之差；

分位数：

是取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合；

识别可以的离群点的通常规则是，挑选落在第3个四分位数之上或第1个四分位数之下至少1.5*IQR处的值，IQR为四分位数极差（Q3-Q1）；

五数概括由中位数、四分位数Q1和Q3、最小和最大观测值组成；

盒图是一种流行的分布的直观表示。

方差和标准差指出数据分布的散布程度。

低标准差意味数据观测趋向于非常靠近均值，高标准差表示数据散布在一个大的值域中。

（3）可视化审视数据，包括条图、饼图和线图，还有分位数图、分位数-分位数图、直方图和散点图。

分位数图：

是一种观察单变量数据分布得简单有效方法，显示给定属性的所有数据。

分位数-分位数图（q-q图），可以观察从一个分布到另一个分布是否有漂移。

直方图：

概括给定属性X的分布的图形方法；

散点图：

确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。

基本数据描述和图形统计显示有助于识别噪声和离群点，对于数据清理特别有用。

3、数据可视化

数据可视化旨在通过图形表示清晰有效地表达数据。

（1）基于像素的可视化技术

像素的颜色反应该维的值，每维创建一个窗口。

（2）几何投影可视化技术

几何投影技术帮助用户发现多维数据集的投影，二维散点图通过不同颜色或形状表述不同的数据点，三维散点图使用笛卡尔坐标系的三个坐标轴，对于维数超过4的数据集，散点图一般不太有效。

平行坐标可以处理更高的维度，绘制n个等距离、相互平行的轴，每维一个。

（3）基于图符的可视化技术

两种流行的图符技术——切尔诺夫脸和人物线条画。

切尔诺夫脸：

有助于揭示数据中的趋势，脸的要素表示维的值，局限性为在表示多重联系的能力方面，且无法显示具体的数据值，此外面部特征因感知的重要性而异。

人物线条画：

把多维数据映射到5段人物线条画中，其中每个画都有四肢和一个躯体。

（4）层次可视化技术

把所有维划分成子集，这些子空间按层次可视化。

（5）可视化复杂对象和关系

标签云是用户产生的标签的统计量的可视化。

标签云的用法有两种，单个术语的标签云可以使用标签的大小表示该标签被不同的用户用于该术语的次数，多个术语上可视化标签统计量时，使用标签的大小表示该标签用于的术语数，即标签的人气。

4、度量数据的相似性和相异性

（1）数据矩阵与相异性矩阵

数据矩阵（对象-属性结构），每行对应于一个对象，每列代表一个属性，也称为二模矩阵

相异性矩阵（对象-对象结构），存放n个对象两两之间的邻近度，只包含一类实体，称为单模矩阵

相似性度量可以表示成相异性度量的函数

（2）标称属性的邻近性度量

标称属性对象之间的相异性可以根据不匹配率来计算

M是匹配的数目（i，j取值相同状态的属性数），p是刻画对象的属性总数；

（3）二元属性的邻近性度量

对象j

对象i

sum

q+r

s+t

q+s

r+t

基于对称二元属性的相异性称作对称的二元相异性，i，j的相异性为

基于非对称的二元属性的相异性称为非对称的二元相异性，非对称的二元属性，两个状态不是同等重要的，若取值为1被认为比取值为0更有意义，负匹配t被认为不重要而忽略，则i，j相异性为

（4）数值属性的相异性

最流行的距离度量是欧几里得距离

曼哈顿距离

欧几里得距离和曼哈顿距离都满足数学性质：

非负性：

d（i，j）≥0：

距离是一个非负的值

同一性：

d（i，j）=0：

对象到自身的距离为0

对称性：

d（i，j）=d（j，i）：

距离是一个对称函数

三角不等式：

d（i，j）≤d（i，k）+d（k，j）从对象i到对象j的距离不会大于途径任何其他对象k的距离

闵可夫斯基距离

（5）序数属性的邻近性度量

第三章数据预处理

1、为什么要进行数据预处理？

数据质量涉及很多因素，包括准确性、完整性、一致性、时效性、可信性和可解释性。

不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库共同特点。

数据预处理可以改进数据的质量，有助于提高挖掘过程的准确率和效率。

2、数据预处理的主要任务

数据预处理的主要步骤：

数据清理、数据集成、数据归约和数据变换。

（1）数据清理通过填写缺失值，光滑噪声数据，识别或删除离群点并解决不一致性来“清理”数据；

数据归约得到数据集的简化表示，数据归约策略包括维归约和数值归约。

维归约使用数据编码方案，以便得到原始数据的简化或“压缩”，包括数据压缩技术（小波变换和主成分分析）、属性子集选择和属性构造，在数值归约中，使用参数模型（回归和对数线性模型）或非参数模型（直方图、聚类、抽样或数据聚集），用较小的表示取代数据。

缺失值

方法

适用

缺点

忽略元组

元组有多个属性缺少值

忽略元组不能使用该元组剩余属性值，这些数据可能有用

人工填写

缺少数据少

费时，数据集大缺失值多时不适用

常量填充

简单不可靠

中心度量填充

正常数据适用均值，倾斜数据使用中位数

数据不可靠

同类样本属性均值或平均值填充

给定类数据分布倾斜则选择中位数

最可能的值填充

可以使用回归、贝叶斯形式、决策树归纳确定

最流行但数据不可靠

噪声数据：

被测量的变量的随机误差或方差。

分箱

考察数据邻近值，进行局部光滑，有箱中位数光滑及箱边界光滑

回归

函数拟合数据来光滑数据

离群点分析

通过聚类来检测离群点

数据清理的第一步是偏差检测，唯一性规则是指每个值都必须不同于该属性的其他值，连续性规则是说属性的最低和最高值之间没有缺失值，并且所有的值都必须是唯一的，空值规则是指空白、问号、特殊符号或指示空值条件的其他串的使用，以及如何处理这样的值。

有大量不同的商业工具可以帮助我们进行偏差监测：

数据清洗工具使用简单的领域知识，检查并纠正数据中的错误；

数据审计工具通过分析数据发现规则和联系，并检测违反这些条件的数据来发现偏差；

数据迁移工具允许简单的变换；

ETL工具允许用户通过图形用户界面说明变换。

（2）数据集成：

合并来自多个数据存储的数据，存放在一个一致的数据存储中，如存放在数据仓库中。

冗余：

一个属性如果能由另一个或另一组属性“导出”，则这个属性可能是冗余的。

有些冗余可以被相关分析检测，对于标称数据，我们使用卡方检验，对于数值属性，我们使用相关系数或协方差；

——标称数据的卡方检验：

将两个数据元组用相依表显示；

——数值数据的相关系数：

相关系数越大，相关性越强，可以作为冗余而被删除；

——数值数据的协方差：

（3）数据归约

数据归约策略包括维归约、数量归约和数据压缩。

维归约减少所考虑的随机变量或属性的个数，维归约的方法包括小波变换和主成分分析；

数量归约用替代的、较小的数据表示形式替换原数据；

数据压缩使用变换，以便得到原数据的归约或“压缩”表示，分为有损和无损。

——小波变换是一种线性信号处理技术，小波变换后的数据可以截短，仅存放一小部分最强的小波系数，就能保留近似的压缩数据，可以用于多维数据，如数据立方体。

——主成分分析搜索k个最能代表数据的n维正交向量，其中k≤n，原数据投影到一个小得多的空间，导致维归约。

基本过程如下：

1）对输入数据规范化，使得每个属性都落入相同的区间

2）计算k个标准正交向量，作为规范化输入数据的基。

这些是单位向量，每一个都垂直于其他向量。

这些向量称为主成分。

输入数据是主成分的线性组合。

3）对主成分按照“重要性”降序排列，去掉较弱的成分来归约数据。

主成分分析能够更好的处理稀疏数据，小波变换更适合高维数据。

——属性子集选择，通过删除不相关或冗余的属性减少数据量，选择的目标是找出最小属性集。

——回归和对数线性模型，可以用来近似给定的数据，在线性回归中，对数据建模，使之拟合到一条直线。

——直方图，属性值划分规则等宽、等频

——聚类，把数据元组看做对象，将对象划分为群或簇，用数据的簇代表替换实际数据。

——抽样，用数据小得多的随机样本表示大型数据集。

——数据立方体聚集

3、数据变换与数据离散化

数据变换策略包括光滑、属性构造、聚集、规范化、离散化、由标称数据产生概念分层

第四章数据仓库与联机分析处理

1、什么是数据仓库？

数据仓库是一种数据库，它与单位的操作数据库分别维护。

是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理者的决策过程。

通常只需要两种数据访问操作：

数据的初始化装入和数据访问。

我们把建立数据仓库看做构建和使用数据仓库的过程，数据仓库的构建需要数据集成、数据清理和数据统一。

2、操作数据库系统与数据仓库的区别？

联机操作数据库系统的主要任务是执行联机事务和查询处理，这种系统称作联机事务处理系统（OLTP），数据仓库系统可以用不同的格式组织和提供给数据，以便满足不同用户的形形色色的需求，这种系统叫做联机分析处理系统（OLAP）

OLTP

OLAP

用户和系统的面向性

面向顾客

用于办事员、客户和信息技术专业人员的事物和查询处理

面向市场

用于知识工人（经理、主管和分析人员）的数据分析

数据内容

管理当前数据

数据琐碎，难以用于决策

管理历史数据

提供汇总和聚集机制，易于有根据的决策

数据库设计

实体-联系（ER）数据模型

面向应用的数据库设计

星形或雪花模型

面向主题的数据库设计

视图

只关注一个企业或部门内部的当前数据

常常跨越数据库模式的多个版本

访问模式

主要是短的原子事务

大部分是只读操作

3、为什么需要分离的数据仓库？

分离的主要原因是有助于提高两个系统的性能。

1）操作数据库为已知的任务和负载设计，数据仓库的查询通常很复杂，在操作数据库上处理OLAP查询，可能会大大降低操作任务的性能

2）操作数据库支持多事务的并发处理，需要并发控制和恢复机制，OLAP查询只需要对汇总和聚集数据记录进行只读访问，会大大降低OLTP系统的吞吐量

3）两种系统中数据的结构、内容和用法都不相同

4、数据仓库的结构？

数据仓库是一种多层次体系结构，通常采用三层体系结构：

底层是仓库数据库服务器，使用后端工具和实用程序，由操作数据库或其他外部数据源提取数据，放入底层。

中间层是OLAP服务器，典型实现使用关系OLAP模型或使用多维OLAP模型

顶层是前端客户层，包括查询和报告工具、分析工具或数据挖掘工具。

5、数据仓库模型？

从结构的角度看，数据仓库有三种模型：

企业仓库、数据集市和虚拟仓库。

企业仓库：

提供企业范围内的数据集成，通常来自一个或多个操作数据库系统或外部信息提供者，并且是多功能的。

数据集市：

包含企业范围数据的一个子集，范围限于选定的主题

虚拟仓库：

虚拟仓库是操作数据库上视图的集合

对于开发数据仓库系统，一种推荐的方法是以递增、进化的方式实现数据仓库，首先在一个合理短的时间内定义一个高层次的企业数据模型，在不同的主题和可能的应用之间，提供企业范围的、一致的、集成的数据视图。

其次，基于相同的企业数据模型，并行的实现独立的数据集市和企业数据仓库，再次，通过中心服务器集成不同的数据集市，构造分布数据集市，最后构造一个多层数据仓库

元数据是关于数据的数据，在数据仓库中，元数据是定义仓库对象的数据。

包括以下内容：

数据仓库结构的描述、操作元数据、用于汇总的算法、由操作环境到数据仓库的映射、关于系统性能的数据、商务元数据。

6、数据仓库建模

数据仓库和OLAP工具基于多维数据模型，这种模型将数据看做数据立方体形式。

（1）数据立方体：

允许以多维对数据建模和观察，每个维都可以有一个与之相关联的表（维表）,n维数据立方体显示成n-1维立方体的序列。

（2）多维数据模型的模式：

最流行的数据仓库的数据模型是多维数据模型，可以是星形模式、雪花模式或事实星座模式。

——星形模式，最常见的模型范型是星形模式，数据仓库包括一个大的中心表（事实表），包含大批数据并且不含冗余，一组小的附属表（维表），每维一个。

——雪花模式，是星形模式的变种，雪花模式的维表可能是规范化形式，以便减少冗余，这种表易于维护，并节省存储空间。

由于执行查询需要更多的连接操作，雪花结构可能降低浏览的效率，因此不如星形模式流行。

——事实星座，复杂的应用可能需要多个事实表共享维表，这种模式称为星系模式或事实星座。

数据仓库收集了关于整个组织的主题信息，因此是企业范围的，数据仓库多选用星座模式；

数据集市是数据仓库的一个部门子集，针对选定的主题，因此是部门范围的，数据集市多采用星形或雪花模式

（3）维：

概念分层的作用，概念分层定义一个映射序列，将低层概念集映射到较高层、更一般的概念

（4）度量的分类和计算，立方体度量是一个数值函数，该函数可以对数据立方体空间的每个点求值，度量根据其所用的聚集函数可以分为三类：

分布的、代数的和整体的.

——分布的，数据划分成n个集合，将函数用于每一个部分，得到n个聚集值，如果函数用于n个聚集值得到的结果和将函数用于整个数据集得到的结果是一样的，则该函数可以用分布方式计算。

例如sum（）、count（）。

——代数的，一个聚集函数如果能够用一个具有M个参数的代数函数计算，而每个参数都可以用一个分布聚集函数求得，则它是代数的。

例如avg（）=sum（）/count（）

——整体的，一个聚集函数如果描述它的子聚集所需的存储没有一个常数界，则它是整体的。

例如median（）

（5）典型的OLAP操作，上卷操作通过延一个维的概念分层向上攀升或者通过维归约在数据立方体上进行聚集；

下钻是上卷的逆操作；

切片和切块，切片操作在给定的立方体的一个维上进行选择，导致一个子立方体；

转轴是一种目视操作，转动数据的视角，提供数据的替代表示；

其他OLAP操作，钻过执行涉及多个事实表的查询，钻透使用关系SQL机制，钻透到数据立方体的底层，到后端关系表。

——OLAP系统与统计数据库

（6）查询多维数据库的星网查询模型

星网模型由从中心点发出的射线组成，其中每一条射线代表一个维的概念分层。

7、数据仓库的设计与使用

关于数据仓库的设计，必须考虑四种不同的视图：

自顶向下视图、数据源视图、数据仓库视图和商务查询视图。

从软件工程的角度看，数据仓库的设计和构造包含以下步骤：

规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。

大型软件系统可以用两种方法开发：

瀑布式方法和螺旋式方法。

瀑布式方法在进行下一步之前，每一步都进行结构的和系统的分析，螺旋式方法实际功能渐增的系统的快速产生，相继发布之间的间隔很短。

在许多公司，数据仓库用作企业管理的计划——执行——评估“闭环”反馈系统的必要部分。

有三类数据仓库应用：

信息处理、分析处理和数据挖掘。

信息处理支持查询和基本的统计分析，并使用交叉表、表、图表或图进行报告。

基于查询，可以发现有用的信息；

分析处理支持基本的OLAP操作，包括切片与切块、下钻、上卷和转轴。

由用户选定的数据仓库子集，在多粒度上导出汇总的信息。

数据挖掘支持知识发现，包括找出隐藏的模式和关联，构造分析模型，进行分类和预测，并使用可视化工具提供挖掘结果。

8、OLAP和数据挖掘相同吗？

OLAP是数据汇总/聚集工具，帮助简化数据分析；

数据挖掘自动发现隐藏在大量数据中的隐含模式和有趣知识。

OLAP工具的目标是简化和支持交互数据分析；

数据挖掘工具的目标是尽可能自动处理，尽管允许用户指导这一过程。

数据挖掘包含数据描述和数据建模，OLAP的功能基本上是用户指导的汇总和比较。

数据挖掘不限于分析存放在数据仓库中的数据，可以分析比数据仓库提供的汇总数据粒度更细的数据。

也可以分析事务的、空间的、文本的和多媒体数据。

9、多维数据库OLAM

多维数据挖掘特别重要：

数据仓库中数据的高质量，环绕数据仓库的信息处理基础设施、基于OLAP的多维数据探索、数据挖掘功能的联机选择

10、数据仓库的实现

数据仓库系统要支持高校的数据立方体计算技术、存取方法和查询处理技术。

（1）数据立方体的有效计算

多维数据分析的核心是有效计算许多维集合上的聚集，这些聚集称为分组，每个分组用一个方体表示，分组的集合形成定义数据立方体的方体的格。

——computecube操作与维灾难

Computecube操作在操作指定的维的所有子集上计算聚集。

数据立方体是方体的格；

对于不同的查询，联机分析处理可能需要访问不同的方体。

因此，提前计算所有的或者至少一部分方体是个好主意。

预计算的主要挑战是，如果数据立方体中素有的方体都预先计算，所需的存储空间可能爆炸，特别是当立方体包含许多维时。

这个问题成为维灾难。

如果每个维没有概念分层，n维数据立方体有2n个方体;

——部分物化：

方体的选择计算

给定基本方体，方体的物化有三种选择：

不物化、完全物化、部分物化。

不物化即不预先计算任何“非基本”方体，这导致回答查询时实时计算昂贵的多维聚集，速度非常慢；

完全物化即预先计算所有方体，需要海量存储空间；

部分物化即有选择的计算整个可能的方体集中一个适当的子集，部分物化是存储空间和响应时间两者之间的折中。

冰山立方体是一个数据立方体，只存放聚集值大于某个最小支持度阈值的立方体单元，外壳立方体涉及预计算数据立方体的只有少量维的方体。

（2）索引OLAP数据

——位图索引，允许在数据立方体中快速搜索，如果给定的属性域包含n个值，则位图索引中每项需要n个位，如果数据表给定航上该属性值为v，则在位图索引的对应行，该值的位为1，该行的其他位均为0

——连接索引，登记来自关系数据库的两个关系的可连接行，连接索引可以跨越多维，形成复合连接索引。

（3）OLAP查询的有效处理

物化方体和构造OLAP索引结构的目的是加快数据立方体查询处理的速度，查询处理应首先确定哪些操作应当在可利用的方体上执行，然后确定相关操作应当使用哪些物化的方体。

（4）OLAP服务器结构：

ROLAP/MOLAP/HOLAP的比较

——关系OLAP（ROLAP）服务器，一种中间服务器，使用关系的或扩充关系的DBMS存储并管理数据仓库数据，OLAP中间件支持其余部分

——多维OLAP（MOLAP）服务器，通过基于数组的多维存储引擎，支持数据的多维视图。

多数都采用两级存储表示来处理稠密和稀疏数据集：

识别较稠密的子立方体并作为数组结构存储，而稀疏子立方体使用压缩技术，提高存储利用率

——混合OLAP（HOLAP）服务器，结合ROLAP和MOLAP技术、

——特殊的SQL服务器，提供高级查询语言和查询处理，在只读环境下，在星形和雪花形模式下支持SQL查询。

（5）数据泛化：

面向属性的归纳

数据泛化通过把相对底层的值用较高层概念替换来汇总数据，或通过减少维数，在涉及较少维数的概念空间汇总数据。

概念描述，概念通常指数据的汇集，概念描

展开阅读全文