CDALEVEL试题及答案docx.docx

上传人:b****8 文档编号:9325906 上传时间:2023-05-18 格式:DOCX 页数:45 大小:168.06KB
下载 相关 举报
CDALEVEL试题及答案docx.docx_第1页
第1页 / 共45页
CDALEVEL试题及答案docx.docx_第2页
第2页 / 共45页
CDALEVEL试题及答案docx.docx_第3页
第3页 / 共45页
CDALEVEL试题及答案docx.docx_第4页
第4页 / 共45页
CDALEVEL试题及答案docx.docx_第5页
第5页 / 共45页
CDALEVEL试题及答案docx.docx_第6页
第6页 / 共45页
CDALEVEL试题及答案docx.docx_第7页
第7页 / 共45页
CDALEVEL试题及答案docx.docx_第8页
第8页 / 共45页
CDALEVEL试题及答案docx.docx_第9页
第9页 / 共45页
CDALEVEL试题及答案docx.docx_第10页
第10页 / 共45页
CDALEVEL试题及答案docx.docx_第11页
第11页 / 共45页
CDALEVEL试题及答案docx.docx_第12页
第12页 / 共45页
CDALEVEL试题及答案docx.docx_第13页
第13页 / 共45页
CDALEVEL试题及答案docx.docx_第14页
第14页 / 共45页
CDALEVEL试题及答案docx.docx_第15页
第15页 / 共45页
CDALEVEL试题及答案docx.docx_第16页
第16页 / 共45页
CDALEVEL试题及答案docx.docx_第17页
第17页 / 共45页
CDALEVEL试题及答案docx.docx_第18页
第18页 / 共45页
CDALEVEL试题及答案docx.docx_第19页
第19页 / 共45页
CDALEVEL试题及答案docx.docx_第20页
第20页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

CDALEVEL试题及答案docx.docx

《CDALEVEL试题及答案docx.docx》由会员分享,可在线阅读,更多相关《CDALEVEL试题及答案docx.docx(45页珍藏版)》请在冰点文库上搜索。

CDALEVEL试题及答案docx.docx

CDALEVEL试题及答案docx

 

CDALEVELⅡ建模分析师_模拟题:

 

一、单项选择题(每小题0.5分,共30分)

 

1、答案(D)

 

在使用历史数据构造训练集(Train集)、验证(Validation集和)检验(Test)

 

时,以下哪个样本量分配方案比较适合?

 

A.训练50%,验证0%,检验50%

 

B.训练100%,验证0%,检验0%

 

C.训练0%,验证100%,检验0%

 

D.训练60%,验证30%,检验10%

 

2、答案(A)

 

一个累积提升度曲线,当深度(Depth)等于0.1时,提升度为(Lift)3.14为,

 

以下哪个解释正确?

 

A.根据模型预测,从最高概率到最低概率排序后,最高的前10%中发生事

 

件的数量比随机抽样的响应率高3.14

 

B.选预测响应概率大于10%的样本,其发生事件的数量比随机抽样的响应率高3.14

 

C.根据模型预测,从最高概率到最低概率排序后,最高的前10%中预测的精确度比随机抽样高3.14

 

D.选预测响应概率大于10%的样本,其预测的精确度比随机抽样高3.14

 

3、答案(C)

 

在使用历史数据构造训练(Train集)、验证(Validation集和)检验(Test)

 

集时,训练数据集的作用在于

 

A.用于对模型的效果进行无偏的评估

 

B.用于比较不同模型的预测准确度

 

C.用于构造预测模型

 

D.用于选择模型

 

4、答案(D)

 

在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什

 

么?

 

A.增加了填补缺失值的时间

 

B.加大了处理的难度

 

C.无法针对分区后各个数据集的特征分别做数据清洗

 

D.无法对不同数据清理的方法进行比较,以选择最优方法

 

5、答案(C)

 

关于数据清洗(缺失值、异常值),以下哪个叙述是正确的?

 

A.运用验证数据集中变量的统计量对训练集中的变量进行数据清洗

 

B.运用验证数据集中变量的统计量对验证集中的变量进行数据清洗

 

C.运用训练数据集中变量的统计量对验证集中的变量进行数据清洗

 

D.以上均不对

 

6、答案(B)

 

当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理

 

A.直接使用该变量,不填补缺失值

 

B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量

 

C.使用多重查补的方法进行缺失值填补

 

D.使用中位数进行缺失值填补

 

7、答案(B)

 

构造二分类模型时,在变量粗筛阶段,以下哪个方法最适合对分类变量进行

 

粗筛

 

A.相关系数

 

B.卡方检验

 

C.方差分析

 

D.T检验

 

8、答案(A)

 

以下哪个方法可以剔除多变量情况下的离群观测

 

A.变量中心标准化后的快速聚类法

 

B.变量取百分位秩之后的快速聚类法

 

C.变量取最大最小秩化后的快速聚类法

 

D.变量取Turkey转换后的快速聚类法

 

9、答案(C)

 

以下哪种变量筛选方法需要同时设置进出模型的变量显著度阀值

 

A.向前逐步法

 

B.向后逐步法

 

C.逐步法

 

D.全子集法

 

10、答案(A)

 

以下哪个指标不能用于线性回归中的模型比较:

 

A.R方

 

B.调整R方

 

C.AIC

 

D.BIC

 

11、[答案B.]

 

将复杂的地址简化成北、中、南、东四区,是在进行?

 

A.数据正规化(Normalization)B.数据一般化(Generalization)C.数据

 

离散化(Discretization)D.数据整合(Integration)

 

12、【答案(A)】

 

当类神经网络无隐藏层,输出层个数只有一个的时候,倒传递神经网络会变

 

形成为?

 

A.罗吉斯回归B.线性回归C.贝氏网络D.时间序列

 

13、[答案B.]

 

请问Apriori算法是用何者做项目集(Itemset)?

的筛选

 

A.最小信赖度(MinimumConfidence)

 

B.最小支持度(MinimumSupport)

 

C.交易编号(TransactionID)

 

D.购买数量

 

14、[答案B.]

 

有一条关联规则为A→B,此规则的信心水平(confidence)60%,则为代

 

表:

 

A.买B商品的顾客中,有60%的顾客会同时购买A

 

B.买A商品的顾客中,有60%的顾客会同时购买B

 

C.同时购买A,B两商品的顾客,占所有顾客的60%

 

D.两商品A,B在交易数据库中同时被购买的机率为60%

 

15、【答案(B)】

 

下表为一交易数据库,请问A→C的支持度(Support)为:

 

A.75%B.50%C.100%D.66.6%

 

TIDItemsBought

 

1A,B,C

 

2A,C

 

3A,D

 

4B,E,F

 

16、【答案(D)】

 

下表为一交易数据库,请问A→C的信赖度(Confidence)为:

 

A.75%B.50%C.100%D.66.6%

 

TID

ItemsBought

1

A,B,C

2

A,C

3

A,D

4

B,E,F

 

17、[答案D.]

 

倒传递类神经网络的训练顺序为何?

(A:

调整权重;B:

计算误差值;C:

利用随

 

机的权重产生输出的结果)

 

A.BCAB.CABC.BACD.CBA

 

18、[答案C.]

 

在类神经网络中计算误差值的目的为何?

 

A.调整隐藏层个数

 

B.调整输入值

 

C.调整权重(Weight)

 

D.调整真实值

 

19、[答案A.]

 

以下何者为Apriori算法所探勘出来的结果?

 

A.买计算机同时会购买相关软件

 

B.买打印机后过一个月会买墨水夹

 

C.买计算机所获得的利益

 

D.以上皆非

 

20、[答案D.]

 

如何利用「体重」以简单贝式分类Bayes)(Naive预测「性别」?

 

A.选取另一条件属性

 

B.无法预测

 

C.将体重正规化为0~1之间

 

D.将体重离散化

 

21、[答案B.]

 

NaiveBayes是属于数据挖掘中的什么方法?

 

A.分群B.分类C.时间序列D.关联规则

 

22、[答案B.]

 

简单贝式分类(NaiveBayes)可以用来预测何种数据型态?

 

A.数值B.类别C.时间D.以上皆是

 

23、[答案B.]

 

如何以类神经网络仿真罗吉斯回归(LoRegression)istic?

 

A.输入层节点个数设定为3

 

B.隐藏层节点个数设定为0

 

C.输出层节点个数设定为3

 

D.隐藏层节点个数设定为1

 

24、[答案B.]

 

请问以下何者属于时间序列的问题?

 

A.信用卡发卡银行侦测潜在的卡奴

 

B.基金经理人针对个股做出未来价格预测

 

C.电信公司将人户区分为数个群体

 

D.以上皆是

 

25、[答案D.]

 

小王是一个股市投资人,手上持有某公司股票,且已知该股过去历史数据如

 

下表所示,今天为预测2/6的股价而计算该股3日移动平均,请问最近的3日

 

移动平均值为多少?

 

日期股价

 

2/110

 

2/212

 

2/313

 

2/416

 

2/519

 

A.11B.13C.14D.16

 

26、[答案C.]

 

下列哪种分类算法的训练结果最难以被解释?

 

A.NaiveBayes

 

B.LogisticRegression

 

C.NeuralNetwork

 

D.DecisionTree

 

27、[答案B.]

 

数据遗缺(NullValue)处理方法可分为人工填补法及自动填补法,下列哪种

 

自动填补法可得到较准确的结果?

 

A.填入一个通用的常数值,例如填入"未知/Unknown"

 

B.把填遗缺值的问题当作是分类或预测的问题

 

C.填入该属性的整体平均值

 

D.填入该属性的整体中位数

 

二、多项选择题

 

1、(AB)

 

对于决策类模型、以下哪些统计量用于评价最合适?

 

A.错分类率

 

B.利润

 

C.ROC指标

 

D.SBC

 

2、(BD)

 

对于估计类模型、以下哪些统计量用于评价最合适?

 

A.错分类率

 

B.极大似然数

 

C.ROC统计量

 

D.SBC

 

3、(AB)

 

以下哪个变量转换不会改变变量原有的分布形式

 

A.中心标准化

 

B.极差标准化

 

C.TURKEY打分

 

D.百分位秩

 

4、(AB)

 

连续变量转换时,选取百分位秩而不选用最大最小秩的原因

 

A.避免模型在使用时,值域发生明显变化

 

B.避免输入变量值域变化对模型预测效果的影响

 

C.避免输入变量的异常值影响

 

D.是转换后的变量更接近正态分布

 

5、(BC)

 

构造二分类模型时,在变量粗筛阶段,以下哪两个方法最适合对连续变量进

 

行粗筛

 

A.皮尔森(Pearson)相关系数

 

B.思皮尔曼(SPEARMAN)相关系数

 

C.Hoeffding’sD相关指标

 

D.余弦相关指标

 

6、(CD)

 

常见的用于预测Y为分类变量的回归方法有

 

A.伽玛回归

 

B.泊松回归

 

C.Logistic回归

 

D.Probit回归

 

7、(A,B,C)

 

请问以下个案何者属于时间序列分析的范畴?

 

A.透过台湾股票指数过去十年走势预测其未来落点

 

B.透过美国股票指数走势变动以分析其与台股指数的连动因果

 

C.透过突发事件前后的股票指数走势变动来探讨该事件的影响

 

D.分析投资人对不同股票的喜好程度

 

8、(A,B,C)

 

下表为一事务数据库,若最小支持度(MinimumSupport)=50%,则以

 

下哪些是长度为2的频繁项目集(FrequentItemset)?

 

A.BEB.ACC.BCD.AB

 

TItems

 

IDBought

 

1A,C,D

 

2B,C,E

 

3A,B,C,E

 

4B,E

 

9.(B,C,D)

 

下列对C4.5算法的描述,何者为真?

 

A.每个节点的分支度只能为2

 

B.使用gainratio作为节点分割的依据

 

C.可以处理数值型态的字段

 

D.可以处理空值的字段

 

10.(A,B,D)

 

下列哪个应用可以使用决策树来建模?

 

A.预测申办信用卡的新客户是否将来会变成卡奴

 

B.银行针对特定族群做人寿保险的推销

 

C.找出购物篮里商品购买间的关联

 

D.根据生活作息推断该病人得癌症的机率

 

11.(B,C)

 

小王是一个股市投资人,手上持有A、B、C、D、E五只股票,请问以下何

 

者不属于时间序列的问题?

 

A.透过A只股票过去一年来的股价走势,预测明天A只股票的开盘价格

 

B.将A、B、C、D、E五只股票区分为赚钱与赔钱两个类别

 

C.将A、B、C、D、E五只股票区分为甲、乙、丙三个群体

 

D.透过A,C,D三只股票过去一年来的走势,预测明天A只股票的开盘价格

 

12.(A,C,D)

 

下列何者是类神经网络的缺点?

 

A.无法得知最佳解

 

B.模型准确度低

 

C.知识结构是隐性的,缺乏解释能力

 

D.训练模型的时间长

 

13.(A,B)

 

请问要符合什么条件才可被称为关联规则?

 

A.最小支持度(MinimumSupport)

 

B.最小信赖度(MinimumConfidence)

 

C.最大规则数(MaximumRuleNumber)

 

D.以上皆非

 

三、内容相关题

 

根据相同的背景材料回答若干道题目,每道题的答案个数不固定。

下列各题A)、

 

B)、C)、D)四个选项中,每题至少有一个选项是正确的,多选或少选,均不

 

能得分。

 

I、下图为类神经元的示意图,请回答1至3题:

 

1、【答案(A)】

 

请问虚线的部分为?

 

A.类神经元

 

B.键结值(Weight)

 

C.阀值(Bias)

 

D.激发函数(ActivationFunction)

 

2、【答案(D)】

 

()?

 

A.神元

 

B.(Weight)

 

C.(Bias)

 

D.激函数(ActivationFunction)

 

3、【答案(B)】

 

W1,W2,⋯,Wm?

 

A.神元

 

B.(Weight)

 

C.(Bias)

 

D.激函数(ActivationFunction)

 

II、根据下表的混乱矩

(ConfusionMatrix),回答4至5:

True

YE

NO

Predicted

S

YES

A

B

NO

C

D

 

4、【答案(A)】

 

于属性YES的响率(Precision)如何算?

 

A.B.C.D.

 

5、[答案B.]

 

对于属性值YES的捕捉率(Recall)应如何计算?

 

A.B.C.D.

 

四、案例操作分析

 

根据相同的背景材料和数据回答若干道题目,每道题的答案个数不固定。

在做题

 

过程中需要使用统计软件进行相应的操作。

提供CSV格式的数据,统计软件不

 

受限制。

下列各题A)、B)、C)、D)四个选项中,每题至少有一个选项是正

 

确的,多选或少选,均不能得分。

 

I、了解汽车的燃油效率一直是汽车业关心的议题。

某汽车业者收集了过去许多

 

可能会影响汽车燃油效率的相关信息,希望从这些数据中,运用数据挖掘(D

 

Mining)中的预测(Prediction)技术,分析出会影响汽车燃油效率的相关因素,

 

并建立能预测汽车燃油效率的数据挖掘预测模型。

汽车燃油效率数据集

 

(autompg)共有10个字段,其中8个是输入字段,1个汽车ID字段,一个目

 

标字段(mpg)

字段的说明如下:

字段名称

数据型态

字段说明

car_id

数值型

汽车ID

car_name

类别型

汽车厂牌及型号

cylinders

数值型

汽缸数

displacement

数值型

排气量

horsepower

数值型

马力

weight

数值型

重量

acceleration

数值型

加速度

 

model

year

类别型

制造年度

origin

类别型

产地

mpg

(milespergallon)

数值型

目标字段

请根据汽车燃油效率数据集

(autompg)

回答以下的问题。

1、(AD)

 

那些字段一定不能作为输入字段(即解Input释变量Attribute):

 

(A)mpg

 

(B)weight

 

(C)origin

 

(D)car_name

 

2、(D)

 

数据的总笔数为:

 

(A)390

 

(B)391

 

(C)492

 

(D)392

 

3、(C)

 

制造年度(modelyear)有几个不同值:

 

(A)11

 

(B)12

 

(C)13

 

(D)14

 

4、(C)

 

此数据集中,目标字段(mpg)的平均值(mean)及标准差(standarddeviation)

 

分别为:

 

(A)25.0877.746

 

(B)23.2837.746

 

(C)23.2835.525

 

(D)25.0875.525

 

5、(BCD)

 

以下是部分的散点图(Scatterplot),请自行做散点图,并判断那些字段与目标

 

字段(mpg)是呈现负相关:

 

(A)acceleration

 

(B)displacement

 

(C)weight

 

(D)horsepower

 

6、(ACD)

 

由于我们的目标是要建立能预测汽车燃油效率的预测模型Model)(Prediction,

 

因此以下那些模型可以协助我们建立:

 

(A)RegressionTree

 

(B)LogisticRegression

 

(C)NeuralNetwork

 

(D)LinearRegression

 

7、(C)

 

由于线性回归(LinearRegression)不能接受类别型的字段,因此若我们想在线

 

性回归中使用类别型字段,则须将类别型字段做何种处理:

 

(A)极值正规化(Min-MaxNormalization)

 

(B)Z-Score正规化(Z-ScoreNormalization)

 

(C)字段值摊平(FlatteningOperation)成多个二元字段

 

(D)字段离散化(Discretization)

 

8、(C)

 

根据以下回归树的建模结果,当cylinders=8;displacement=70;

 

horsepower=100;weight=2500;acceleration=15;modelyear=75;

 

origin=2时,模型的预测结果为:

 

(A)18.894

 

(B)24.846

 

(C)28.821

 

(D)35.656

 

9、(B)

 

根据以下线性回归的建模结果,当cylinders=8;displacement=70;

 

horsepower=100;weight=2500;acceleration=15;modelyear=75;

 

origin=2时,模型的预测结果为:

 

(A)25.701

 

(B)25.809

 

(C)28.342

 

(D)35.809

 

10、(AC)

 

根据以下的四個建模结果

(1)及

(2),哪種兩個模型表現最好:

 

(A)

(1)

 

(B)

(2)

 

(C)(3)

 

(D)(4)

 

(1)

(2)

 

(3)(4)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2