南开大学《数据科学导论》20秋在线作业参考答案.docx

上传人:b****2 文档编号:1411533 上传时间:2023-04-30 格式:DOCX 页数:12 大小:17.22KB
下载 相关 举报
南开大学《数据科学导论》20秋在线作业参考答案.docx_第1页
第1页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第2页
第2页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第3页
第3页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第4页
第4页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第5页
第5页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第6页
第6页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第7页
第7页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第8页
第8页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第9页
第9页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第10页
第10页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第11页
第11页 / 共12页
南开大学《数据科学导论》20秋在线作业参考答案.docx_第12页
第12页 / 共12页
亲,该文档总共12页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

南开大学《数据科学导论》20秋在线作业参考答案.docx

《南开大学《数据科学导论》20秋在线作业参考答案.docx》由会员分享,可在线阅读,更多相关《南开大学《数据科学导论》20秋在线作业参考答案.docx(12页珍藏版)》请在冰点文库上搜索。

南开大学《数据科学导论》20秋在线作业参考答案.docx

南开大学《数据科学导论》20秋在线作业参考答案

1.以下哪一项不是特征选择常见的方法?

()

A.过滤式

B.封装式

C.嵌入式

D.开放式

答案:

D

2.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。

A.最小化方差

B.最小化残差平方和

C.最大化信息熵

D.最小化标准差

答案:

C

3.以下哪些不是缺失值的影响?

()

A.数据建模将丢失大量有用信息

B.数据建模的不确定性更加显著

C.对整体总是不产生什么作用

D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出

答案:

C

4.下列两个变量之间的关系中,哪个是函数关系?

()

A.人的性别和他的身高

B.人的工资与年龄

C.正方形的面积和边长

D.温度与湿度

答案:

C

5.哪一项不属于规范化的方法?

()

A.最小—最大规范化

B.零—均值规范化

C.小数定标规范化

D.中位数规范化

答案:

D

6.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?

()

A.关联规则发现

B.聚类

C.分类

D.自然语言处理

答案:

A

7.考虑下面的频繁3-项集的集合:

{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5};假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

答案:

C

8.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。

A.1

B.2

C.3

D.4

答案:

B

9.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。

A.4

B.5

C.6

D.7

答案:

C

10.以下哪一项不属于数据变换?

()

A.简单函数变换

B.规范化

C.属性合并

D.连续属性离散化

答案:

C

11.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差

B.方差

C.测差

D.残差

答案:

D

12.聚类的最简单最基本方法是()。

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

答案:

A

13.单层感知机模型属于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型

答案:

A

14.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。

A.最优回归线

B.最优分布线

C.最优预测线

D.最佳分布线

答案:

A

15.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小,减小

B.减小,增大

C.增大,减小

D.增大,增大

答案:

B

16.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台,单位成本增加100元

B.产量每增加一台,单位成本减少1.2元

C.产量每增加一台,单位成本平均减少1.2元

D.产量每增加一台,单位平均增加100元

答案:

C

17.对于k近邻法,下列说法错误的是()。

A.不具有显式的学习过程

B.适用于多分类任务

C.k值越大,分类效果越好

D.通常采用多数表决的分类决策规则

答案:

C

18.实体识别属于以下哪个过程?

()

A.数据清洗

B.数据集成

C.数据规约

D.数据变换

答案:

B

19.在回归分析中,自变量为(),因变量为()。

A.离散型变量,离散型变量

B.连续型变量,离散型变量

C.离散型变量,连续型变量

D.连续型变量,连续型变量

答案:

D

20.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。

A.越小

B.越大

C.无关

D.不确定

答案:

B

21.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取

答案:

AB

22.系统日志收集的基本特征有()。

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

答案:

ABC

23.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度

答案:

ABCD

24.距离度量中的距离可以是()。

A.欧式距离

B.曼哈顿距离

C.Lp距离

D.Minkowski距离

答案:

ABCD

25.k近邻法的基本要素包括()。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

答案:

ABD

26.多层感知机的学习过程包含()。

A.信号的正向传播

B.信号的反向传播

C.误差的正向传播

D.误差的反向传播

答案:

AD

27.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

答案:

ABC

28.什么情况下结点不用划分?

()

A.当前结点所包含的样本全属于同一类别

B.当前属性集为空,或是所有样本在所有属性上取值相同

C.当前结点包含的样本集为空

D.还有子集不能被基本正确分类

答案:

ABC

29.数据科学具有哪些性质?

()

A.有效性

B.可用性

C.未预料

D.可理解

答案:

ABCD

30.下面例子属于分类的是()。

A.检测图像中是否有人脸出现

B.对客户按照贷款风险大小进行分类

C.识别手写的数字

D.估计商场客流量

答案:

ABC

31.剪枝是决策树学习算法对付“过拟合”的主要手段。

()

A.正确

B.错误

答案:

A

32.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。

()

A.正确

B.错误

答案:

B

33.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。

()

A.正确

B.错误

答案:

B

34.分拆方法是自底向上的方法。

()

A.正确

B.错误

答案:

B

35.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。

()

A.正确

B.错误

答案:

A

36.在数据预处理时,无论什么情况,都可以直接将异常值删除。

()

A.正确

B.错误

答案:

B

37.对于项集来说,置信度没有意义。

()

A.正确

B.错误

答案:

A

38.给定关联规则A→B,意味着:

若A发生,B也会发生。

()

A.正确

B.错误

答案:

B

39.信息熵越小,样本结合的纯度越低。

()

A.正确

B.错误

答案:

B

40.聚合方法是自底向上的方法。

()

A.正确

B.错误

答案:

A

41.BFR聚类簇的坐标可以与空间的坐标保持一致。

()

A.正确

B.错误

答案:

B

42.集中趋势能够表明在一定条件下数据的独特性质与差异。

()

A.正确

B.错误

答案:

B

43.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。

()

A.正确

B.错误

答案:

B

44.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能。

()

A.正确

B.错误

答案:

A

45.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。

()

A.正确

B.错误

答案:

A

46.使用SVD方法进行图像压缩不可以保留图像的重要特征。

()

A.正确

B.错误

答案:

B

47.K均值(K-Means)算法是密度聚类。

()

A.正确

B.错误

答案:

B

48.K-means算法采用贪心策略,通过迭代优化来近似求解。

()

A.正确

B.错误

答案:

A

49.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。

()

A.正确

B.错误

答案:

B

50.特征的信息增益越大,则其越不重要。

()

A.正确

B.错误

答案:

B

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 中国风

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2