奥鹏南开大学20春学期170918031809《大数据开发技术二》在线作业参考答案.docx

资源描述

奥鹏南开大学20春学期170918031809《大数据开发技术二》在线作业参考答案.docx

《奥鹏南开大学20春学期170918031809《大数据开发技术二》在线作业参考答案.docx》由会员分享，可在线阅读，更多相关《奥鹏南开大学20春学期170918031809《大数据开发技术二》在线作业参考答案.docx（14页珍藏版）》请在冰点文库上搜索。

奥鹏南开大学20春学期170918031809《大数据开发技术二》在线作业参考答案.docx

奥鹏南开大学20春学期170918031809《大数据开发技术二》在线作业参考答案

南开大学网络学院

《大数据开发技术

（二）》在线作业

标准答案

参考资料试读一页

20春学期（1709、1803、1809、1903、1909、2003）《大数据开发技术

（二）》在线作业

1.Scala中合并两个数组的方法是（）

【选项】：

Aline

Badd

Cappend

Dconcat

【答案】：

2.以下哪个函数可以对RDD进行排序（）

【选项】：

AsortBy

Bfilter

Cdistinct

Dintersection

【答案】：

3.Graph类中如果要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法

【选项】：

AGraph（vertices,edges,defaultVertexAttr）

BGraph.fromEdges（RDD[Edge[ED]],defaultValue）

CGraph.fromEdgeTuples（rawEdges:

RDD[（VertexId,VertexId）],defaultValue,）

DGraphLoader.edgeListFile（sc,filename）

【答案】：

4.下列Scala代码应输出（）：

vara=0;

varb=0

varsum=0;

for（a<-1until3;b<-1until3）{

sum+=a+b;

}

println（sum）;

【选项】：

A36

B35

C11

D12

【答案】：

5.GraphX中（）是提供顶点的各种操作方法的对象

【选项】：

ARDD[Edge]

BEdgeRDD

CRDD[（VertexId,VD）]

DVertexRDD

【答案】：

6.Scala列表方法中返回所有元素，除了最后一个的方法是（）

【选项】：

Adrop

Bhead

Cfilter

Dinit

【答案】：

7.Dstream输出操作中（）方法在Driver中打印出DStream中数据的前12个元素。

【选项】：

Aprint

BsaveAsTextFiles

CsaveAsObjectFiles

DsaveAsHadoopFiles

【答案】：

8.（）是Spark的核心，提供底层框架及核心支持

【选项】：

ASparkCore

BSparkSQL

CSparkStreaming

DMllib

【答案】：

9.如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是（）

【选项】：

A[0,numPartitions]

B[0,numPartitions-1]

C[1,numPartitions-1]

D[1,numPartitions]

【答案】：

10.PairRDD中（）函数可以对具有相同键的值进行分组

【选项】：

AmapValues

BgroupBy

CgroupByKey

DreduceByKey

【答案】：

11.GraphX中（）方法可以缓存整个图，并指定存储级别

【选项】：

Acache

Bpresist

CunpersistVertices

Dedges.unpersist

【答案】：

12.当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作

【选项】：

Atransfer

Bchange

Cmap

Dbuild

【答案】：

13.Dstream窗口操作中（）方法基于滑动窗口对（K，V）键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的Dstream

【选项】：

Awindow

BcountByWindow

CreduceByWindow

DreduceByKeyAndWindow

【答案】：

14.spark-submit配置项中（）表示executor使用的总核数

【选项】：

A--num-executorsNUM

B--executor-memoryMEM

C--total-executor-coresNUM

D--executor-couresNUM

【答案】：

15.图结构中如果任意两个顶点之间都存在边，那么称之为（）

【选项】：

A完全图

B有向完全图

C无向图

D简单图

【答案】：

16.以下哪个函数可以求两个RDD的笛卡尔积（）

【选项】：

Aunion

Bsubstract

Cintersection

Dcartesian

【答案】：

17.Scala类通过子类化和基于灵活的混合类来进行扩展，作为##的一个可靠性解决方案

【选项】：

A多态

B虚函数

C派生

D多重继承

【答案】：

18.MLlib中可以调用mllib.tree.DecisionTree类中的静态方法（）训练分类树

【选项】：

AtrainClassifier

BtrainRegressor

CLogisticRegressionModel

DLabeledPoint

【答案】：

19.以下哪个不是Scala的数据类型（）

【选项】：

AInt

BShortInt

CLong

DAny

【答案】：

20.Mllib中metrics.precisionByThreshold表示（）指标

【选项】：

A准确度

B召回率

CF值

DROC曲线

【答案】：

21.PairRDD可以通过（）获得仅包含键的RDD

【选项】：

Akey

Bkeys

Cvalue

Dvalues

【答案】：

22.RDD的（）操作通常用来划分单词

【选项】：

Afilter

Bunion

Cflatmap

DmapPartitions

【答案】：

23.请问RDD的（）操作作用于K-V类型的RDD上，返回指定K的所有V值

【选项】：

Asearch

Bfind

CfindByKey

Dlookup

【答案】：

24.图的结构通常表示为：

G（V,E），其中，V是图G中（）

【选项】：

A顶点

B顶点的集合

C边

D边的集合

【答案】：

25.一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是HadoopMapReduce运行速度的（）多倍

【选项】：

B10

C100

D1000

【答案】：

26.PairRDD中（）函数可以进行分组

【选项】：

AmapValues

BgroupBy

CgroupByKey

DreduceByKey

【答案】：

B.C

27.Spark创建DataFrame对象方式有（）

【选项】：

A结构化数据文件

B外部数据库

CRDD

DHive中的表

【答案】：

A.B.C.D

28.SparkDataFrame中（）方法可以返回一个Array对象

【选项】：

Acollect

Btake

CtakeAsList

DcollectAsList

【答案】：

A.B

29.SparkCore包含的功能有（）

【选项】：

A任务调度

B内存管理

CSQL查询

D容错机制

【答案】：

A.B.D

30.SparkStreaming能够和（）无缝集成

【选项】：

AHadoop

BSparkSQL

CMllib

DGraphX

【答案】：

B.C.D

31.以下是机器学习的常用算法的是（）

【选项】：

A回归算法

B聚类算法

C降维算法

D分类算法

【答案】：

A.B.C.D

32.Scala支持（）

【选项】：

A匿名函数

B高阶函数

C函数嵌套

D柯里化

【答案】：

A.B.C.D

33.Spark中DataFrame的（）方法是查询指定字段的数据信息

【选项】：

Aselect

BselectExpr

Ccol

Dapply

【答案】：

A.B.C.D

34.Spark可以通过哪些外部存储创建RDD（）

【选项】：

A文本文件

B目录

C压缩文件

D通配符匹配的文件

【答案】：

A.B.C.D

35.Scala中使用（）方法来连接两个集合

【选项】：

Aappend

B++

Cconcat

DSet.++（）

【答案】：

B.D

36.Scala可以通过“val”来定义变量，通过“var”关键字来定义常量

【选项】：

T对

F错

【答案】：

37.Scala中列表是可变的

【选项】：

T对

F错

【答案】：

38.MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

【选项】：

T对

F错

【答案】：

39.RDD的union函数会将两个RDD元素合并成一个并且去处重复元素

【选项】：

T对

F错

【答案】：

40.聚类是一种无监督学习的方法，用于将高度相似的数据分到一类中

【选项】：

T对

F错

【答案】：

41.SparkSQL包括基本的SQL语法和HiveQL语法

【选项】：

T对

F错

【答案】：

42.Scala函数组合器中flatten可以把嵌套的结构展开

【选项】：

T对

F错

【答案】：

43.Scala中默认情况下使用的是可变的Map

【选项】：

T对

F错

【答案】：

44.Scala在子类中重写超类的抽象方法时，需要使用override关键字

【选项】：

T对

F错

【答案】：

45.Scala是ScalableLanguage的简写，是一门多范式的编程语言，设计初衷是不包括函数式编程的特性。

【选项】：

T对

F错

【答案】：

46.Scala语言中提供的数组是用来存储动态大小的同类型元素

【选项】：

T对

F错

【答案】：

47.RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。

【选项】：

T对

F错

【答案】：

48.Scala调用匿名函数可以将函数赋值给一个常量或变量，然后通过常量名或变量名调用该函数

【选项】：

T对

F错

【答案】：

49.Scala中允许集成多个父类

【选项】：

T对

F错

【答案】：

50.val如同Java里面的非final变量，可以在它的声明周期中被多次赋值。

【选项】：

T对

F错

【答案】：

展开阅读全文