数据科学导论复习资料.docx

资源描述

数据科学导论复习资料.docx

《数据科学导论复习资料.docx》由会员分享，可在线阅读，更多相关《数据科学导论复习资料.docx（39页珍藏版）》请在冰点文库上搜索。

数据科学导论复习资料.docx

数据科学导论复习资料

--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--

数据科学导论复习资料（共34页）

《数据科学》课程期末复习资料

《数据科学》课程讲稿章节目录：

第一章导论

第一节了解数据科学的基本概念

第二节了解数据科学的应用

第三节了解数据科学的过程

第四节掌握数据科学的方法

第二章数据获取及预处理

第一节了解获取数据的途径和方法

第二节掌握数据质量检验的方法

第三节掌握数据清洗

第四节掌握数据集成

第五节掌握数据规约

第六节掌握数据变换

第三章数据分析

第一节了解探索性数据分析的概念

第二节掌握单变量分析方法

第三节掌握多变量分析方法

第四节掌握样本相似性与相异性分析的方法

第四章特征工程

第一节了解特征的介绍和创建过程

第二节了解降维的基本概念

第三节掌握主成分分析-PCA

第四节掌握奇异值分解-SVD

第五节了解特征选择的基本概念

第六节掌握过滤式方法

第七节了解产生特征子集的搜索策略

第八节了解封装式方法

第九节了解嵌入式方法

第五章关联规则算法

第一节了解关联规则的基本概念

第二节掌握频繁项集的产生过程

第三节掌握Apriori算法

第六章分类算法

第一节了解分类问题基本概念

第二节掌握k近邻算法

第三节了解贝叶斯定理

第四节掌握朴素贝叶斯

第五节了解决策树的基本概念

第六节了解决策树-特征选择

第七节了解决策树-剪枝算法

第七章线性回归算法

第一节了解线性回归的基本概念

第二节掌握一元线性回归

第三节掌握多元线性回归

第八章人工神经网络

第一节了解神经网络的基本概念

第二节掌握感知机的学习算法

第三节掌握多层感知机-反向传播算法

第九章聚类算法

第一节了解聚类问题的介绍

第二节掌握层次聚类

第三节掌握K-means聚类

第四节了解BFR聚类

一、客观部分：

（单项选择、判断）

（一）、选择部分

1、通过构造新的指标-线损率，当超出线损率的正常范围，则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的（C）

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化

★考核知识点:

数据变换

参见讲稿章节：

2-6

附（考核知识点解释）：

数据变换是对数据进行规范化处理，将数据转换成“适当的”形式，更适用于任务及算法需要。

包括简单函数变换、规范化、属性构造、连续属性离散化等。

简单函数变换：

对原始数据进行某些数学函数变换，常用来将不具有正态分布的数据变换成具有正态分布的数据。

比如个人年收入的取值范围为10000元到10亿元，区间太大使用对数变换对其进行压缩是常用的一种变换处理方法。

规范化：

不同评价指标具有不同的量纲，数值间的差别可能很大。

为了消除量纲和差异的影响，需要进行标准化处理。

将数据按照比例进行缩放，落入特定区域，便于进行综合分析。

例如将工资收入属性值映射到[-1,1]或者[0,1]内

属性构造：

利用已有的属性集构造新的属性，加入到现有的属性集合，提高结果精度，挖掘更深层次模式。

连续属性离散化：

在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。

2、实体识别属于以下哪个过程（B）

A.数据清洗

B.数据集成

C.数据规约

D.数据变换

★考核知识点:

数据集成

参见讲稿章节：

2-4

附（考核知识点解释）：

数据集成是将多个数据源合并，存放在一个一致的数据存储（如数据仓库）中。

数据集成是数据预处理的一部分。

数据预处理通常包括数据清洗、数据集成、数据规约和数据变换。

其中：

数据清洗一般包括缺失值处理和异常值处理。

数据集成一般包括实体识别和冗余属性识别。

数据规约一般包括属性规约和数值规约。

数据变换一般包括简单函数变换、规范化、属性构造等。

3、数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”，概括性来说，脏数据不包括以下（A）

A.普通值

B.异常值

C.不一致的值

D.重复值

★考核知识点:

数据质量检验

参见讲稿章节：

2-2

附（考核知识点解释）：

对于数据分析而言，只有一份高质量的基础数据，才可能得到正确、有用的结论。

期望数据完美是不现实的，因为会受到人的错误、测量设备的限制、数据收集过程的漏洞等因素影响。

比如以下情况都可能导致问题：

数据的值、整个数据对象都可能会丢失，可能有不真实的或重复的对象，可能有不一致的对象。

数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”。

概括性来说，脏数据主要包括四点：

缺失值、异常值、不一致的值、重复值。

4、决策树在什么情况下结点需要划分（D）

A.当前结点所包含的样本全属于同一类别

B.当前属性集为空，或是所有样本在所有属性上取值相同

C.当前结点包含的样本集为空

D.还有子集不能被基本正确分类

★考核知识点:

决策树

参见讲稿章节：

6-5

附（考核知识点解释）：

决策树学习算法流程

1.构建根结点node,将所有的训练数据都放在根结点。

2.选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下的最好分类。

3.如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中。

（1）当前结点所包含的样本全属于同一类别a_i，无需划分；结点类别标记为a_i

（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；将当前结点

标记为叶结点，将其类别设定为该结点所含样本最多的类别

（3）当前结点包含的样本集为空，不能划分；将当前结点标记为叶结点，类别设定为

其父节点所含样本最多的类别

（4）如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割构建相应的结点，如此递归地进行下去，直至所有训练数据子集被基本正确分类或者没有合适的特征为止

5、系统日志收集的基本特征不包括（D）

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

★考核知识点:

获取数据

参见讲稿章节：

2-1

附（考核知识点解释）：

获取数据就是数据收集，按照确定的数据分析框架，为数据分析提供素材和依据，包括第一手数据（可直接获取的数据）和第二手数据（经过加工整理后得到的数据）。

获取数据的途径有很多，我们可以通过系统日志采集、网络数据采集、数据库收集、公开出版物、开放数据平台和市场调查等。

其中系统日志收集是公司业务平台每天产生大量日志数据，收集日志数据可以供公司分析系统使用研究，其具有以下基本特征：

高可用性、高可靠性、可扩展性。

“高可用性”（HighAvailability）通常来描述一个系统经过专门的设计，从而减少停工时间，而保持其服务的高度可用性。

“高可靠性”（highreliability）指的是运行时间能够满足预计时间的一个系统或组件。

可靠性可以用“100%可操作性”或者“从未失败”这两种标准来表示。

一个被广泛应用但却难以达到的标准是著名的“5个9标准”，就是说工作的可靠性要达到%。

“可扩展性”可以通过软件框架来实现：

动态加载的插件、顶端有抽象接口的认真设计的类层次结构、有用的回调函数构造以及功能很有逻辑并且可塑性很强的代码结构。

6、k近邻法的基本要素不包括（C）。

A.距离度量

值的选择

C.样本大小

D.分类决策规则

★考核知识点:

K近邻法

参见讲稿章节：

6-2

附（考核知识点解释）：

K近邻法是一种基于向量空间的分类方法，输入为实例的特征向量，对应于特征空间中的点。

K近邻法简单，直观，不具有显式的学习过程。

它的基本思想是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。

K近邻法的三个基本要素包括：

距离度量、k值的选择、分类决策规则。

1.距离度量：

特征空间中两个实例点的距离是两个实例点的相似程度的反映。

K近邻模型的特征空间一般是n维实数向量空间

，使用的距离是欧式距离，但也可以是其他距离如更一般的

距离（

distance）或Minkowski距离（Minkowskidistance）。

值的选择：

选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的“近似误差”会减小，“估计误差”会增大，预测结果会对近邻的点实例点非常敏感。

k值减小意味着整体模型变得复杂，容易发生过拟合。

选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。

k值增大意味着整体模型变得简单。

在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。

3.分类决策规则：

k近邻法中的分类决策规则往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

7、一元回归参数估计的参数求解方法不包括（D）。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

★考核知识点:

一元线性回归

参见讲稿章节：

7-1

附（考核知识点解释）：

分类问题主要关注于离散型变量，然而在客观世界中普遍存在着连续型变量，因此需要考虑如何对连续型变量之间的关系进行分析。

变量之间的关系一般来说可以分为确定性关系与非确定性关系两种。

确定性关系是指变量之间的关系可以用函数关系来表达，而另一种非确定性的关系即为所谓的相关关系，例如身高与体重的关系，身高越高通常情况下体重越重，但是同样高度的人，体重却未必相同，与此类似的还有体重、年龄与血压的关系，天气，住房面积，房价与用户用电量的关系等等。

这些变量之间的关系是非确定性的，而回归分析就是研究这种相关关系的工具，它可以帮助我们从一个或一组变量取得的值去估计另一个变量的值。

一元线性回归中，参数求解方法有以下三种：

最大似然法、距估计法和最小二乘法。

其中最小二乘法是线性回归问题中常用的参数求解方法，最小二乘法的目标是最小化残差平方和。

首先将目标函数分别对

和

求导并令导数等于0

8、下列选项不是BFR的对象是（B）

A.废弃集

B.临时集

C.压缩集

D.留存集

★考核知识点:

BFR聚类

参见讲稿章节：

9-4

附（考核知识点解释）：

BFR聚类是用于处理数据集非常大的k-means变体，用于在高维欧氏空间中对数据进行聚类。

它对簇的形状做出了非常强烈的假设：

必须正态分布在质心周围。

BFR算法的步骤流程：

1.簇初始化。

随机取k个点，随机抽取一小部分样本并进行聚类，选取一个样本，并随机抽取点，剩下的k-1个点尽可能远离先前选择的点。

2.数据文件读入。

数据文件中的点按组块方式读入：

分布式文件系统中的组块、

传统文件分割成的大小合适的组块、每个组块必须包含足够少的点以便能在内存中进行处理。

内存中除了输入组块之外还包括其他三种对象：

（1）废弃集：

由簇本身的简单概要信息组成，簇概要本身没有被“废弃”，它们实际上不可或缺。

概要所代表的点已被废弃，它们在内存中除了通过该概要之外已经没有其他表示信息。

（2）压缩集：

类似于簇概要信息，压缩集中存放概要信息。

只存放那些相互接近的点集的概要，而不是接近任何簇的点集的概要。

压缩集所代表的点也被废弃，它们也不会显式地出现在内存中。

（3）留存集：

留存集上的点不能分配给某个簇，留存集上的点不会和某个其他点充分接近而被放到压缩集中，这些点在内存中会与其在输入文件中一样显示存在。

9、聚类的主要方法不包括（D）

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

★考核知识点:

聚类的方法

参见讲稿章节：

9-1

附（考核知识点解释）：

聚类是将数据集中的样本划分为若干个通常是不相交的子集，是一种无监督学习方法。

给定一组点，使用点之间的距离概念，将点分组为若干簇，以便簇内的成员彼此接近/相似，不同簇的成员不同。

通常点位于高维空间中，使用距离测量来定义相似性。

聚类的主要方法有：

划分聚类、层次聚类、密度聚类。

10、以下哪一项不是特征选择常见的方法（D）

A.过滤式

B.封装式

C.嵌入式

D.开放式

★考核知识点:

特征选择

参见讲稿章节：

4-6

附（考核知识点解释）：

从数据集的全部特征中选取一个特征子集的过程被称为特征选择（featureselection）。

特征选择常见的方法包括：

过滤式方法、封装式方法、嵌入式方法。

11、以下哪一项不是特征工程的子问题（D）

A.特征创建

B.特征提取

C.特征选择

D.特征识别

★考核知识点:

特征的介绍和创建

参见讲稿章节：

4-1

附（考核知识点解释）：

特征工程是使用领域知识来基于原始数据创建特征的过程，它是机器学习的基础，是困难且繁杂的。

特征工程的子问题包括特征创建、特征提取和特征选择。

12、比如一张表，从业务上讲，一个用户应该只会有一条记录，那么如果某个用户出现了超过一条的记录，这就产生了（C）

A.异常值

B.不一致的值

C.重复值

D.缺失值

★考核知识点:

数据质量检验

参见讲稿章节：

2-2

附（考核知识点解释）：

数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”，概括性来说，脏数据主要包括以下四点：

缺失值、异常值、不一致的值、重复值。

缺失值：

记录的缺失，记录中某个字段信息的缺失。

异常值：

指样本中的个别值，其数值明显偏离其余观测值。

也称离群点。

不一致的值：

数据不一致是指数据的矛盾性和不相容性，主要发生在数据集成的过程中。

重复值;对于二维表形式的数据集来说,主要是关键字段出现重复记录,例如主索引字段出现重复。

13、对于相似性与相异性的度量方法，基于距离的方法，以下哪一项不符合要求（D）

A.欧氏距离

B.曼哈顿距离

C.马氏距离

D.对角距离

★考核知识点:

样本相似性与相异性分析

参见讲稿章节：

3-5

附（考核知识点解释）：

两个对象之间的相似度（similarity）是两个对象相似程度的数值度量。

因而，两个对象越相似，它们的相似度就越高。

通常，相似度是非负的，并常常在0（不相似）和1（完全相似）之间取值。

两个对象之间的相异度（dissimilarity）是这两个对象差异程度的数值度量。

对象越相似，他们的相异度就越低。

通常，术语距离（distance）被用作相异度的同义词，常常用来表示特定类型的相异度。

其中，相似性与相异性的度量方法中，基于距离的方法有欧氏距离、曼哈顿距离、明可夫斯基距离、马氏距离。

14、通过变量标准化计算得到的回归方程称为（A）。

A.标准化回归方程

B.标准化偏回归方程

C.标准化自回归方程

D.标准化多回归方程

★考核知识点:

多元线性回归

参见讲稿章节：

7-2

附（考核知识点解释）：

在实际问题中，各自变量都有各自的计量单位以及不同的变异程度，所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量𝑦的影响大小，可以利用标准化偏回归系数来衡量。

通过变量标准化计算得到的回归方程称为标准化回归方程，相应的回归系数即为标准化偏回归系数。

15、一元线性回归中，真实值与预测值的差称为样本的（D）。

A.误差

B.方差

C.测差

D.残差

★考核知识点:

一元线性回归

参见讲稿章节：

7-1

附（考核知识点解释）：

在一元线性回归中，输入只包含一个单独的特征，真实值与预测值的差称为样本的残差。

其中残差项服从正态分布。

16、在回归分析中，自变量为（），因变量为（D）。

A.离散型变量，离散型变量

B.连续型变量，离散型变量

C.离散型变量，连续型变量

D.连续型变量，连续型变量

★考核知识点:

一元线性回归

参见讲稿章节：

7-1

附（考核知识点解释）：

设输入为

维自变量

，输出因变量

为连续型，回归分析等价于寻找一个映射函数

，建立

到

的映射关系。

其中x和y都是连续型变量。

17、为了解决任何复杂的分类问题，使用的感知机结构应至少包含（B）个隐含层。

★考核知识点:

人工神经网络

参见讲稿章节：

8-2

附（考核知识点解释）：

感知机只能解决线性可分的问题，多层感知机可以解决非线性可分的问题，输入层与输出层之间的一层神经元，称为隐含层。

隐含层和输出层都是拥有激活函数的功能神经元。

随着隐含层层数的增多，凸域将可以形成任意的形状，可以解决任何复杂的分类问题。

双隐层感知器就足以解决任何复杂的分类问题。

18、BFR聚类用于在（A）欧氏空间中对数据进行聚类

A.高维

B.中维

C.低维

D.中高维

★考核知识点:

BFR聚类

参见讲稿章节：

9-4

附（考核知识点解释）：

BFR是用于处理数据集非常大的k-means变体，用于在高维欧氏空间中对数据进行聚类。

19、层次聚类对给定的数据进行（B）的分解。

A.聚合

B.层次

C.分拆

D.复制

★考核知识点:

层次聚类

参见讲稿章节：

9-2

附（考核知识点解释）：

层次聚类对给定的数据进行层次的分解，适用于规模较小的数据集。

层次的方法包括聚合方法和分拆方法。

（二）、判断部分

1、当维度增加时，特征空间的体积增加得很快，使得可用的数据变得稀疏。

（√）

★考核知识点:

降维的基本概念

参见讲稿章节：

4-2

附（考核知识点解释）：

维数灾难：

当维度增加时，特征空间的体积增加得很快，使得可用的数据变得稀疏。

例如：

给定有10个样本，假设每一维的特征空间都是一个长度为5的线段，

使用一维特征时，特征空间大小=5，样本密度=样本数/特征空间大小=10/5=2；

使用二维特征时：

特征空间大小=5*5=25，样本密度=样本数/特征空间大小=10/25=；

使用三维特征时：

特征空间大小=5*5*5=125

样本密度=样本数/特征空间大小=10/125=。

2、数据分析师的任务：

用模型来回答具体问题，了解数据，其来源和结构。

（×）

★考核知识点:

数据科学的过程

参见讲稿章节：

1-3

附（考核知识点解释）：

一个分析师需要具备以下能力：

1.提出正确的问题

2.争论数据

3.管理数据以便组织轻松访问

4.探索数据以产生假设

5.使用统计方法

6.使用可视化，演示和产品表达结果

数据分析师的任务：

争论数据，管理数据，创建基本分析和可视化。

数据建模师的任务：

用模型来回答具体问题，了解数据其来源和结构。

数据科学家的任务：

提问正确的问题，寻找数据中的模式，批判性的解释结果。

3、探索性数据分析的特点是研究从原始数据入手，完全以实际数据为依据。

（√）

★考核知识点:

探索性数据分析

参见讲稿章节：

3-1

附（考核知识点解释）：

探索性数据分析：

在尽量少的先验假定下，通过作图、制表、方程拟合、计算特征量等手段，探索数据的结构和规律。

探索性数据分析可以最大化数据分析者对数据集和数据集底层结构的洞察力，并且为分析者提供数据集中包含的各类信息。

探索性数据分析的主要特点：

1.研究从原始数据入手，完全以实际数据为依据

2.分析方法从实际出发，不以某种理论为依据

3.分析工具简单直观，更易于普及

4、特征的信息增益越大，则其越重要。

（√）

★考核知识点:

过滤式方法

参见讲稿章节：

4-9

附（考核知识点解释）：

特征：

是一个客体或一组客体特性的抽象结果，是对数据建模有用的属性。

好的特征可以降低模型的复杂度，提升模型的性能，提高模型的灵活性。

信息熵主要用来描述数据信息的不确定性。

信息熵越大，数据信息的不确定性越大。

特征选择中，信息增益用来衡量系统包含某一个特征与不包含该特征时的信息量的差值。

即反映某一特征对系统的重要性。

当特征为离散型时，可以使用信息增益作为评价统计量。

特征的信息增益越大，则其越重要。

5、随着特征维数的增加，样本间区分度提高。

（×）

★考核知识点:

降维的基本概念

参见讲稿章节：

4-2

附（考核知识点解释）：

随着特征维数的增加，特征空间呈指数倍增长，样本密度急剧减小，样本稀疏。

随着特征维数的增加，样本间区分度降低。

假设有一个二维特征空间，在矩形内部有一个内切的圆形，越接近圆心的样本越稀疏，相比于圆形内的样本，位于矩形四角的样本更加难以分类。

随着特征维数的增加，将矩形和内切圆泛化为超立方体与超球体。

随着特征数量的增加，超球体的体积逐渐减小直至趋向于0，然而超立方体的体积却不变。

高维特征空间中，大多数的训练样本位于超立方体的角落。

6、多层感知机的学习能力有限，只能处理线性可分的二分类问题。

（×）

★考核知识点:

人工神经网络

参见讲稿章节：

8-2

附（考核知识点解释）：

感知机只能解决线性可分的问题，但多层感知机可以解决非线性可分的问题，输入层与输出层之间的一层神经元，称为隐含层。

隐含层和输出层都是拥有激活函数的功能神经元。

单层感知机：

在输入空间形成一个超平面将实例划分为正负两类。

单隐层的多层感知机：

在输入空间形成开凸或闭凸区域。

双隐层的多层感知机：

在输入空间形成任意形状的划分区域。

7、给定一组点，使用点之间的距离概念，将点分组为若干簇，不同簇的成员不可以相同。

（√）

★考核知识点:

聚类问题

参见讲稿章节：

9-1

附（考核知识点解释）：

聚类是将数据集中的样本划分为若干个通常是不相交的子集，是一种无监督学习方法。

给定一组点，使用点之间的距离概念，将点分组为若干簇，以便簇内的成员彼此接近/相似，不同簇的成员不同。

通常点位于高维空间中，使用距离测量来定义相似性。

8、给定关联规则A→B，意味着：

若A发生，B也会发生。

（×）

★考核知识点:

关联规则

参见讲稿章节：

5-1

附（考核知识点解释）：

关联规则是形如X→Y的蕴涵式，其中，X和Y分别称为关联规则的先导（antecedent或left-hand-side,LHS）和后继（consequent或right-hand-side,RHS）。

其中，关联规则XY，存在支持度和信任度。

给定关联规则A→B，意味着：

若A发生，B有可能会发生，而不是一定会发生。

9、Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

（√）

★考核知识点:

样本相似性与相异性分析

参见讲稿章节：

3-6

附（考核知识点解释）：

Jaccard系数，又称为Jaccard相似系数（Jaccardsimilaritycoefficient），用于比较有限样本集之间的相似性与差异性。

Jaccard系数值越大，样本相似度越高。

Jaccard主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

10、集中趋势能够表明在一定条件下数据的独特性质与差异。

（×）

★考核知识点:

单变量分析

参见讲稿章节：

3-2

附（考核知识点解释）：

单变量分析主要关注于单变量的描述和统计推断两个方面，旨在用简单的概括形式反映出大量样本资料所容纳的基本信息，描述样本数据中的集中或离散趋势。

集中趋势又称“数据的中心位置”、“集中量数”等，是一组数据的代表值。

集中趋势能够表明在一定条件下数据的共同性质和一般水平。

常用的有平均数、中位数等。

11、利用K近邻法进行分类时，使用不同的距离度量所确定的最近

展开阅读全文