大数据开发基础(习题卷68)--688IT编程网

大数据开发基础(习题卷68)

第1部分：单项选择题，共54题，每题只有一个正确答案，多选或少选均不得分。

1.[单选题]以下哪个不属于hadoop的核心构成

A)HDFS

B)MapReduce

C)Spark

D)YARN

答案:C

解析:

2.[单选题]HBase 的主 HMaster 是如何选举的?

A)由 RegionServer 进行裁决

B)HMaster 为双主模式，不需要进行裁决

C)通过 ZooKeeper 进行裁决

D)随机选举

答案:C

解析:

3.[单选题]以下程序的输出结果是：L1 =['abc', ['123','456']]L2 = ['1','2','3']print(L1 > L2)

A)False

B)TypeError: '>' not supported between instances of 'list' and 'str'

C)1

D)True

答案:D

解析:

4.[单选题]关于Maxcompute MR（）说法是正确的。

A)mapworker 在输出数据时，需要为每一条输出数据指定一个key

B)进入reduce前，数据需要进行合并操作，然后按照key排序

C)map和reduce前都需要对数据进行分片

D)reducer的个数和mapper的个数一致

答案:A

解析:

5.[单选题]下面关于数据的说法，错误的是：（）

A)数据的根本价值在于可以为人们出答案

B)数据的价值会因为不断使用而削减

C)数据的价值会因为不断重组而产生更大的价值

D)目前阶段，数据的产生不以人的意志为转移

答案:B

解析:

6.[单选题]在逻辑回归输出与目标对比的情况下，以下评估指标中()不适用。

A)AUC-ROC

B)准确度

D)均方误差

答案:D

解析:Logistic Regression是一个分类算法，所以它的输出不能是实时值，所以均方误差不能用于评估它。

7.[单选题]下列选项中，关于HBase和BigTable的底层技术对应关系，哪个是错误的？

A)GFS与HDFS相对应

B)GFS与Zookeeper相对应

C)MapReduce与Hadoop MapReduce相对应

D)Chubby与Zookeeper相对应

答案:B

解析:

8.[单选题]以下()是对DMM(数据管理成熟度模型)中"已管理级"基本特点的正确表述。

A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化

B)组织机构已用定量化的方式管理其关键过程的执行过程

C)组织机构只有在项目管理过程中执行了D.M 给出的关键过程，而缺乏机构层次的统筹与管理

D)组织机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理其数据管理关键过程

答案:D

解析:DMM(数据管理成熟度模型)中"已管理级"的基本特点是组织机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理其数据管理关键过程。

9.[单选题]要得到最后一句SELECT查询到的总行数，可以使用的函数是( )

A)FOUND_ROWS

B)LAST_ROWS

C)ROW_COUNT

D)LAST_INSERT_ID

答案:A

解析:

10.[单选题]以下不属于推断统计的是( )。

A)参数估计

B)关联预测

C)假设检验

D)采样分布

答案:B

解析:

11.[单选题]下列关于 Python 语言特点的描述错误的是（）。

A)Python 语言是非开源语言

B)Python 语言是跨平台语言

C)Python 语言是多模型语言

D)Python 语言是脚本语言

答案:A

解析:Python 是免费开源的编程语言。

12.[单选题]下列哪个选项可以用来判断HBase表是否存在?（

A)admin. table Exists（tableName

B)admin. table Exists（Table Namevalue Of（table Name）

C)admin. get Table（tableName

D)tables. containsKey（table Name）

13.[单选题]请阅读下面的代码：def many_param(num_one, num_two, *args): print(args)many_param(11, 22, 33, 44, 55)运行代码，输出结果为（）。

A)(11,22,33)

B)(22,33,44)

C)(33,44,55)

D)(11,22)

答案:C

解析:

14.[单选题]下面有关分类算法的准确率、召回率、F1值的描述，错误的是()。

A)准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率

B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率

C)正确率、召回率和F值取值都在0和1之间，数值越接近0，查准率或查全率

就越高

D)为了解决准确率和召回率冲突问题，引入了F1分数

答案:C

解析：正确率、召回率取值都在0和1之间，数值越接近1，查准率或查全率就越高。

15.[单选题]选项( )可以令下面的代码输出结果为Truea = foo(2)b = foo(3)print(a < b)

A)class foo: def __init__(self, x): self.x = x def __lt__(self, other): if self.x < other.x: return False else: return True

B)class foo: def __init__(self, x): self.x = x def __less__(self, other): if self.x > other.x: return False else: return True

C)class foo: def __init__(self, x): self.x = x def __lt__(self, other): if self.x < other.x: return True else: return False

D)class foo: def __init__(self, x): self.x = x def __less__(self, other): if self.x < other.x: return False else: return True

答案:C

解析:

16.[单选题]下列关于分类算法的准确率、召回率、F1 值的描述错误的是（）。

A)准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率

B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率

C)正确率、召回率和 F1 值取值都在 0 和 1 之间，数值越接近 0，查准率或查全率就越高

D)为了解决准确率和召回率冲突问题，引入了 F1 分数

答案:C

解析：正确率、召回率、F1 值取值都在 0 和 1 之间，数值越接近 1，查准率或查全率就越高。

17.[单选题]RNN不同于其他神经网络的地方在于( )

A)实现了记忆功能

B)速度快

C)精度高

D)易于搭建

答案:A

解析:

18.[单选题]RDD操作包括转换（Transformation）和动作(Action)两种类型，下列RDD操作属于动作（Action）类型的是（）。

D)groupBy

答案:C

解析:

19.[单选题]支持向量机的稀疏性通常是指( )。

A)相对少的支持向量

B)特征选择

C)特征抽取

D)以上都不是

答案:A

解析:

20.[单选题]Flume的高级组件不包含以下哪个?

A)Sink Processor

B)Channel Interceptor

C)Channel Selector

D)Source Interceptor

答案:B

解析:

hbase官方文档21.[单选题]以下选项哪个是 MapReduce 正确的运行模型( )

A)Reduce-Map-Shuffle

B)Shuffle-Map-Reduce

C)Map-Shuffle-Reduce

D)Map-Reduce-Shuffle

答案:C

解析:

22.[单选题]如果线性回归模型中的随机误差存在异方差性，那么参数的 OLS估计量是()。

A)无偏的，有效的

B)无偏的，非有效的

C)有偏的，有效的

D)有偏的，非有效的

答案:B

解析:OLS 即普通最小二乘法，由高斯-马尔可夫定理可知，在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量。根据证明过程可知，随机误差中存在异方差性不会影响其无偏性，而有效性证明中涉及同方差性，即异方差性会影响参数OLS估计量的有效性，得到的参数估计量不

是有效估计量。

23.[单选题]下列关于传递参数的说法中，不正确的是（）

A)python的函数允许传递不定长个参数

B)将不定长参数传入函数时，必须放在末尾

C)args将参数打包成“列表”的形式

D)kwargs可以使用关键词法传递参数

答案:C

解析:

24.[单选题]()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

A)偏差

答案:C

解析：泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力；方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响；噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的F界，即刻画了学习问题本身的难度。

25.[单选题]下列关于MapReduce说法不正确的是______。

A)MapReduce是一种计算框架

B)MapReduce来源于google的学术论文

C)MapReduce程序只能用java语言编写

D)MapReduce隐藏了并行计算的细节，方便使用

答案:C

解析:C项 rhadoop是用R语言开发的，MapReduce是一个框架，可以理解是一种思想，可以使用其他语言开发。

26.[单选题]下列选项中，关于drop_duplicates()方法描述错误的是（）。

A)仅支持单一特征数据的去重

B)仅对Series和DataFrame对象有效

C)数据去重时默认保留第一个数据

D)该方法不会改变原始数据排列

答案:A

解析:

27.[单选题]下列算法中属于局部处理的是

A)灰度线性变换

B)二值化

C)傅立叶变换

D)中值滤波

答案:D

解析:

28.[单选题]探索性分析与验证性分析的不同点是()。

A)探索性分析需要事先假设

B)探索性分析比验证性分析复杂

C)探索性分析在前

D)验证性分析在前

答案:C

解析：验证性分析需要事先假设，因数据不同复杂程度也不同，探索性分析一般在前，为验证性分析提供参考。

29.[单选题]Python程序文件的扩展名是( )。

A)python

B)pyt

C)pt

D)py

答案:D

解析:

30.[单选题]智能健康手环的应用开发，体现了（）的数据采集技术的应用。

A)统计报表

B)网络爬虫

688IT编程网

大数据开发基础(习题卷68)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

大数据开发基础(习题卷68)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式