大数据开发基础(试卷编号111)--688IT编程网

大数据开发基础(试卷编号111)

1.[单选题]HBase为什么适用于海量数据存储?

A)支持列存表

B)集规模小

C)HDFS做底层存储

D)多列簇特性

答案:C

解析:

2.[单选题]马尔可夫随机场有一组（__），这是定义在变量子集上的非负实函数，主要用于定义概率分布函数。

A)损失函数

B)优化函数

C)激活函数

D)势函数

答案:D

解析:

3.[单选题]下列关于线性回归分析中的残差说法正确的是()。

A)残差均值总是为零

B)残差均值总是约等于零

C)残差均值总是大于零

D)以上答案都不正确

答案:A

解析：线性回归分析中，目标是残差最小化。残差平方和是关于参数的函数，为了求残差极小值，令残差关于参数的偏导数为零，会得到残差和为零，即残差均值为零。

4.[单选题]为了观察测试Y与X之间的线性关系，若X是连续变量，则使用()比较适合。

A)散点图

B)柱形图

C)直方图

D)以上答案都不正确

答案:A

解析：散点图反映了两个变量之间的相互关系，在测试Y与X之间的线性关系时，使用散点图最为直观。

5.[单选题]作为分布式消息队列，既有非常优秀的吞吐量，又有较高的可靠性和扩展性，同时接受Spark Streaming的请求，将流量日志按序发送给Spark Streaming集是（）

A)Flume

B)Zookeeper

D)Sparkstreaming

答案:C

解析:

6.[单选题]下列声明游标的语法格式中，正确的是( ) 。--

A)DECLARE cursor_name CURSOR FOR select_statement

B)CURSOR cursor_name FOR select_statement

C)DECLARE cursor_name CURSOR OF select_statement

D)CURSOR cursor_name OF select_statement

答案:A

解析:

7.[单选题]()不是 HDFS 的守护进程。

A)SecondaryNameNode

B)DataNode

C)MRAppMaster/YarnChild

D)NameNode

答案:C

解析:NameNode 是HDFS集的主节点,DataNode是HDFS集的从节点,Secondary NameNode 是HDFS集启动的用来给NameNode 节点分担压力的角，这个三个服务进程会一直启动着。

MRAppMaster/YarnChild进程是只有在YARN 集运行了 MapReduce程序之后才会启动的程序。

8.[单选题]having, where, group by的正确执行顺序是( )。

A)having, where, group by

B)where, group by, having

C)where, having, group by

D)group by, having, where

答案:B

解析:

9.[单选题]YARN 的基于标准调度，是对下列选项中的哪个进行标签化?

A)AppMaster

B)ResourceManager

C)NodeManager

D)Container

答案:C

解析:

10.[单选题]关于OLAP和 OLTP的区别描述，不正确的是()。

A)OLAP主要是关于如何理解聚集的大量不同的数据，它与 OTAP应用程序不同

B)与OLAP 应用程序不同,OLTP 应用程序包含大量相对简单的事务

D)OLAP是以数据仓库为基础的，但其最终数据来源与OLTP 一样均来自底层的数据库系统，两者面对的用户是相同的

答案:C

解析:OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，记录即时的增、删、改、查，比如在银行存取一笔款，就是一个事务交易。OLAP即联机分析处理，是数据仓库的核心，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。

11.[单选题]下列哪项通常是集的最主要的性能瓶颈

A)CPU

B)网络

C)磁盘

D)内存

答案:C

解析：集的瓶颈提出多种看法，其中网络和磁盘io的争议比较大。这里需要说明的是网络是一种稀缺资源，而不是瓶颈。

集的最主要瓶颈是：磁盘。当我们面临集作战的时候，我们所希望的是即读即得。可是面对大数据，读取数据需要经过磁盘IO，这里可以把IO理解为水的管道。管道越大越强，我们对于T级的数据读取就越快。所以IO的好坏，直接影响了集对于数据的处理。

12.[单选题]下列关于hadoop的描述哪个是正确的：

A)Hadoop的图标是一个黄小鸭子；hbase应用案例

B)Hadoop是由韩国人研发的；

C)CDH是hadoop的其中一个发行版本；

D)所有的Hadoop发行版本都是免费的。

答案:C

解析:

13.[单选题]在MapReduce 中，哪个组件是用户不指定也不会有默认的( )。

A)Combiner

B)OutputFormat

C)Partitioner

D)InputFormat

答案:A

解析:

14.[单选题]下列选项中，不属于python特点的是。（）

A)面向对象

B)运行效率高

C)可移植性

D)免费和开源

15.[单选题]数据科学领域常用的工具之一---（）语言是统计学家发明的语言。

A)Python

B)R

C)JAVA

D)C

答案:B

解析:

16.[单选题]执行后可以查看Python的版本的是

A)import sysprint(sys.Version)

B)import systemprint(system.version)

C)import systemprint(system.Version)

D)import sysprint(sys.version)

答案:D

解析:

17.[单选题]k近邻算法在()的情况下效果较好。

A)样本较多但典型性不好

B)样本较少但典型性好

C)样本呈团状分布

D)样本呈链状分布

答案:B

解析:k近邻算法主要依靠的是周围的点，因此如果样本过多，则难以区分，典型性好的容易区分。样本都是呈团状分布,KNN就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。

18.[单选题]np.swapaxes()函数返回的是数组的（__)。

A)副本

B)视图

C)子集

D)切片

答案:B

解析:

19.[单选题]假如table中有一条记录，字段列coll值为空，下面（）条件会将此条记录查询出来。

A)coll ="

B)coll !="

C)coll is null

D)coll is not null

20.[单选题]下列说法错误的是（）。

A)当目标函数是凸函数时，梯度下降算法的解一般就是全局最优解

B)进行 PCA 降维时，需要计算协方差矩阵

C)沿负梯度的方向一定是最优的方向

D)利用拉格朗日函数能解带约束的优化问题

答案:C

解析：沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。

21.[单选题]1997年5月，著名的“人机大战”，最终计算机以3.5比2.5的总比分将世界国际象棋棋王卡斯帕罗夫击败，这台计算机被称为（）

A)深蓝

B)IBM

C)深思

D)蓝天

答案:A

解析:

22.[单选题]对参数进行L2 正则，是机器学习常用的防止过拟合的方法。对参数做L2 正则时,()是对参数本身做先验分布假设。

A)高斯分布

B)拉普拉斯分布

C)泊松分布

D)均匀分布

答案:A

解析:L2 正则假设参数的先验分布是 Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小。

23.[单选题]当作业调度根据自己的调度算法调度该作业时，会根据数据划分信息为每个划分创建一个( )任务。

A)Reduce

B)Shuffle

C)Map

D)Partition

答案:C

解析:

24.[单选题]Python 代码中 Params['font.sans-serif'] = ['SimHei'] 的作用是（）。

A)设置图表中文显示的字体

B)设置图表图例的位置

688IT编程网

大数据开发基础(试卷编号111)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

大数据开发基础(试卷编号111)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式