大数据开发基础(习题卷51)--688IT编程网

大数据开发基础(习题卷51)

说明：答案和解析在试卷最后

第1部分：单项选择题，共54题，每题只有一个正确答案，多选或少选均不得分。

1.[单选题]在HDFS文件系统根目录下创建一个名为mydir的文件夹的命令是( )。

ate(new Path(“hdfs:/mydir”))

B)hdfs.open(new Path(“hdfs:/mydir”))

C)hdfs.mkdirs(“hdfs:/mydir”)

D)hdfs.mkdirs(new Path(“hdfs:/mydir”))

2.[单选题]Spark的特点不包括()。

A)速度快

B)通用性

C)易用性

D)单一操作性

3.[单选题]下面哪个不属于matplotlib基本图表包含的元素

A)坐标轴

B)刻度

C)刻度标签

D)参考区域

4.[单选题]下面关于SET和ENUM说法错误的是( )。--

A)只能插入规定的数据项

B)节省存储空间

C)查询速度比VARCHAR类型快

D)列表中不支持中文

5.[单选题]阅读下面程序：list_demo =[1,2,1,3]nums = set(list_demo)for i in nums: print(i,end="")执行的结果为（）

A)1213

B)213

C)321

D)123

6.[单选题]type(1 == 2)的结果为( )。

A)class 'int'

B)class 'float'

C)class 'complex'

D)class 'bool'

7.[单选题]关于 Spark 的说法中，( )是错误的。

A)采用内存计算模式

B)可利用多种语言编程

C)主要用于批处理

D)可进行map（）操作

8.[单选题]下列大数据的特点中，（）无助于推动网络安全治理模式的改进提升。

A)扁平化

B)个性化

C)交互性

D)隔绝性

9.[单选题]HBase获得Connection连接正确的是（）

A)Connection conn = ateConnection(conf);

B)Connection conn = ateConnection();

C)Connection conn = ateConnection(conf);

D)Connection conn = ateConnection();

10.[单选题]下列关于函数的说法中，描述错误的是（）。

A)函数可以减少重复的代码，使得程序更加模块化

B)不同的函数中可以使用相同名字的变量

C)调用函数时，实参的传递顺序与形参的顺序可以不同

D)匿名函数与使用关键字def定义的函数没有区别

11.[单选题]下列代码的运行结果是（）。print ('a' < 'b' < 'c')

A)a

B)b

C)0

D)1

12.[单选题]在回归模型中，( )在权衡欠拟合和过拟合中影响最大。

A)更新权重 w 时，使用的是矩阵求逆还是梯度下降

B)使用常数项

C)训练样本数量

D)多项式阶数

13.[单选题]云计算包括3种类型。只为特定用户提供服务，比如大型企业出于安全考虑自建的云环境，只为企业内部提供服务，这种云计算属于：（）

A)有云

B)私有云

C)混合云

D)独立云

14.[单选题]下面哪个操作是窄依赖（）

A)join

B)filter

C)group

D)sort

15.[单选题]HBase 与下列哪个选项属于同一种类型的数据库( )

A)MongoDB

B)MariaDB

C)MySQL

D)Oracle

16.[单选题]通常,()主要指的是关系数据库中存储、计算和管理的数据。

A)结构化数据

B)海量数据

C)半结构化数据

D)非结构化数据

17.[单选题]以下哪个选项不能做为Kafka的Consumer?

A)Hadoop

B)Real-time Monitoring

C)Front End

D)Data Warehouse

18.[单选题]关于机器学习中的目标函数，说法错误的是()

A)、目标函数(TA、rgetFunC、tion)又称为“评价函数(EvA、luA、tionFunC、tion)”

B)、是机器学习算法中需要最大化或最小化一个函数

C)、可以直接、精确地表示目标函数

D)、目标函数包含误差函数和正则化项。

19.[单选题]关于Kerberos的TGT以下说法错误的是:（）。

A)TGT全称为票据授权服务票据，主要由KDC服务器生成

B)TGT一次生成之后，可以无限期使用。

C)TGT在客户端的存在方式可以是在内存中存储，也可以在本地以文件的形式存储。

D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。

20.[单选题]下面哪种结果不是利用机器学习算法从数据中得到的？（）

A)回归模型

B)规则

C)常识

D)神经网络

21.[单选题]以下关于数据维度的描述，错误的是：

正则化是结构风险最小化策略的实现A)采用列表表示一维数据，不同数据类型的元素是可以的

B)JSON格式可以表示比二维数据还复杂的高维数据

C)二维数据可以看成是一维数据的组合形式

D)字典不可以表示二维以上的高维数据

22.[单选题]( )主要提供内存计算框架。

A)Spark 核心层

B)资源计算层

C)服务核心层

D)Spark 层

23.[单选题]在HBase物理存储结构中，region按大小分割的，每个表一开始有（）region。

A)一个

B)两个

C)三个

D)不确定

24.[单选题]关于最大方差，描述准确的是（）

A)在信号处理中认为信号具有较大的方差，噪声有较小的方差;

B)方差越大，说明样本数据质量越差;

C)在信号处理中认为信号具有较小的方差，噪声有较大的方差;

D)方差越小，说明样本数据质量越差;

25.[单选题]在深度学习中，我们经常会遇到收敛到 localminimum，下列不属于解决 localminimum

问题的方法是（）。

A)随机梯度下降

B)设置 Momentum

C)设置不同初始值

D)增大 batch size

26.[单选题]LSM的读操作和写操作是独立的？

A)是

B)否

C)LSM并不区分读和写

D)LSM中读写是同一种操作

27.[单选题]管理网络中跨多台计算机存储的文件系统称为( )。

A)MapReduce

B)HDFS

C)Hadoop

D)Hive

28.[单选题]距离超平面最近的几个训练样本称为支持向量，两个异类支持向量到超平面的距离之和为( )。

A)间隔

B)误差

C)距离

D)偏差

29.[单选题]在大数据计算服务（MaxCompute，原ODPS）中，使用MapReduce开发一个分词程序，即输入为保存在表中的多篇文章（每篇文章一行纪录），参考一个字典文件（该文件会经常更新）进行分词。简而言之，在执行该程序的时候，既需要输入待分词的文章（已经保存在表中了），又需要输入字典（为经常变动的本地文件），以下最合理的解决方案为：（）。

A)将这个字典与源代码一起进行打包，直接执行即可

B)每次都将字典文件作为资源上传到大数据计算服务上，然后MR中通过资源的方式来访问

C)将字典打包jar包，使用jar命令执行MR程序时，通过resources参数指定该jar包

D)将字典文件保存在本地，在MR中通过访问本地最新的字典文件实现

30.[单选题]学生成绩属于下列哪类数据

A)结构化数据

B)非结构化数据

C)半结构化数据

D)准结构化数据

31.[单选题]()不属于聚类性能度量外部指标。

A)Jaccard 系数

B)FM系数

C)Rand 指数

D)DB指数

32.[单选题]HBase分布式模式最好需要（）个节点？

A)1

B)2

C)3

D)最少

33.[单选题]业务部门梳理本专业（），制定数据转换需求，提高数据可读性，丰富完善一手数据资源。

A)原始数据

B)结构化数据

C)非结构化数据

D)所有数据

34.[单选题]数据加工的本质是()

A)、探索数据分析

B)、将低层次数据转换为高层次数据

C)、处理数据

D)、生成新的数据

35.[单选题]以下关于选用Kafka等消息系统的原因描述错误的是（）。

A)解耦：消息系统在处理过程中插入一个隐含、基于数据的接口层。

B)同步通信：消息队列允许消息加入队列，等需要时再处理。

C)扩展性：消息队列解耦处理过程，容易扩展处理过程。

D)冗余：消息队列持久化，防止数据丢失

36.[单选题]互联网接入服务包含( )等接入方式的接入服务

A)固定速率独享端口

B)动态速率独享端口

C)共享端口

D)三个选项都是

37.[单选题]使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？

A)探索性数据分析

B)建模描述

C)预测建模

D)寻模式和规则

38.[单选题]YARN的基于标准调度，是对下列选项中的（）进行标签化。

A)AppMaster

B)ResourceManager

C)NodeManager

D)Container

39.[单选题]下列关于RDD说法，描述有误的是？

A)一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合

B)每个RDD可分成多个分区，每个分区就是一个数据集片段

C)RDD是可以直接修改的

D)RDD提供了一种高度受限的共享内存模型

40.[单选题]什么关于TF-IDF模型描述错误的是？

A)TF意思是词频

B)IDF是逆文本频率

688IT编程网

大数据开发基础(习题卷51)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

大数据开发基础(习题卷51)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式