大数据开发基础(习题卷51)
说明:答案和解析在试卷最后
第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在HDFS文件系统根目录下创建一个名为mydir的文件夹的命令是( )。
ate(new Path(“hdfs:/mydir”))
B)hdfs.open(new Path(“hdfs:/mydir”))
C)hdfs.mkdirs(“hdfs:/mydir”)
D)hdfs.mkdirs(new Path(“hdfs:/mydir”))
2.[单选题]Spark的特点不包括()。
A)速度快
B)通用性
C)易用性
D)单一操作性
3.[单选题]下面哪个不属于matplotlib基本图表包含的元素
A)坐标轴
B)刻度
C)刻度标签
D)参考区域
4.[单选题]下面关于SET和ENUM说法错误的是( )。--
A)只能插入规定的数据项
B)节省存储空间
C)查询速度比VARCHAR类型快
D)列表中不支持中文
5.[单选题]阅读下面程序:list_demo =[1,2,1,3]nums = set(list_demo)for i in nums: print(i,end="")执行的结果为( )
A)1213
B)213
C)321
D)123
6.[单选题]type(1 == 2)的结果为( )。
A)class 'int'
B)class 'float'
C)class 'complex'
D)class 'bool'
7.[单选题]关于 Spark 的说法中,( )是错误的。
A)采用内存计算模式
B)可利用多种语言编程
C)主要用于批处理
D)可进行map()操作
8.[单选题]下列大数据的特点中,()无助于推动网络安全治理模式的改进提升。
A)扁平化
B)个性化
C)交互性
D)隔绝性
9.[单选题]HBase获得Connection连接正确的是( )
A)Connection conn = ateConnection(conf);
B)Connection conn = ateConnection();
C)Connection conn = ateConnection(conf);
D)Connection conn = ateConnection();
10.[单选题]下列关于函数的说法中,描述错误的是( )。
A)函数可以减少重复的代码,使得程序更加模块化
B)不同的函数中可以使用相同名字的变量
C)调用函数时,实参的传递顺序与形参的顺序可以不同
D)匿名函数与使用关键字def定义的函数没有区别
11.[单选题]下列代码的运行结果是()。print ('a' < 'b' < 'c')
A)a
B)b
C)0
D)1
12.[单选题]在回归模型中,( )在权衡欠拟合和过拟合中影响最大。
A)更新权重 w 时,使用的是矩阵求逆还是梯度下降
B)使用常数项
C)训练样本数量
D)多项式阶数
13.[单选题]云计算包括3种类型。只为特定用户提供服务,比如大型企业出于安全考虑自建的云环 境,只为企业内部提供服务,这种云计算属于:()
A)有云
B)私有云
C)混合云
D)独立云
14.[单选题]下面哪个操作是窄依赖()
A)join
B)filter
C)group
D)sort
15.[单选题]HBase 与下列哪个选项属于同一种类型的数据库( )
A)MongoDB
B)MariaDB
C)MySQL
D)Oracle
16.[单选题]通常,()主要指的是关系数据库中存储、计算和管理的数据。
A)结构化数据
B)海量数据
C)半结构化数据
D)非结构化数据
17.[单选题]以下哪个选项不能做为Kafka的Consumer?
A)Hadoop
B)Real-time Monitoring
C)Front End
D)Data Warehouse
18.[单选题]关于机器学习中的目标函数,说法错误的是()
A)、目标函数(TA、rgetFunC、tion)又称为“评价函数(EvA、luA、tionFunC、tion)”
B)、是机器学习算法中需要最大化或最小化一个函数
C)、可以直接、精确地表示目标函数
D)、目标函数包含误差函数和正则化项。
19.[单选题]关于Kerberos的TGT以下说法错误的是:( )。
A)TGT全称为票据授权服务票据,主要由KDC服务器生成
B)TGT一次生成之后,可以无限期使用。
C)TGT在客户端的存在方式可以是在内存中存储,也可以在本地以文件的形式存储。
D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。
20.[单选题]下面哪种结果不是利用机器学习算法从数据中得到的?()
A)回归模型
B)规则
C)常识
D)神经网络
21.[单选题]以下关于数据维度的描述,错误的是:
正则化是结构风险最小化策略的实现A)采用列表表示一维数据,不同数据类型的元素是可以的
B)JSON格式可以表示比二维数据还复杂的高维数据
C)二维数据可以看成是一维数据的组合形式
D)字典不可以表示二维以上的高维数据
22.[单选题]( )主要提供内存计算框架。
A)Spark 核心层
B)资源计算层
C)服务核心层
D)Spark 层
23.[单选题]在HBase物理存储结构中,region按大小分割的,每个表一开始有()region。
A)一个
B)两个
C)三个
D)不确定
24.[单选题]关于最大方差,描述准确的是()
A)在信号处理中认为信号具有较大的方差,噪声有较小的方差;
B)方差越大,说明样本数据质量越差;
C)在信号处理中认为信号具有较小的方差,噪声有较大的方差;
D)方差越小,说明样本数据质量越差;
25.[单选题]在深度学习中,我们经常会遇到收敛到 localminimum,下列不属于解决 localminimum
问题的方法是( )。
A)随机梯度下降
B)设置 Momentum
C)设置不同初始值
D)增大 batch size
26.[单选题]LSM的读操作和写操作是独立的?
A)是
B)否
C)LSM并不区分读和写
D)LSM中读写是同一种操作
27.[单选题]管理网络中跨多台计算机存储的文件系统称为( )。
A)MapReduce
B)HDFS
C)Hadoop
D)Hive
28.[单选题]距离超平面最近的几个训练样本称为支持向量,两个异类支持向量到超平面的距离之和为( )。
A)间隔
B)误差
C)距离
D)偏差
29.[单选题]在大数据计算服务(MaxCompute,原ODPS)中,使用MapReduce开发一个分词程序,即输入为保存在表中的多篇文章(每篇文章一行纪录),参考一个字典文件(该文件会经常更新)进行分词。简而言之,在执行该程序的时候,既需要输入待分词的文章(已经保存在表中了),又需要输入字典(为经常变动的本地文件),以下最合理的解决方案为:( )。
A)将这个字典与源代码一起进行打包,直接执行即可
B)每次都将字典文件作为资源上传到大数据计算服务上,然后MR中通过资源的方式来访问
C)将字典打包jar包,使用jar命令执行MR程序时,通过resources参数指定该jar包
D)将字典文件保存在本地,在MR中通过访问本地最新的字典文件实现
30.[单选题]学生成绩属于下列哪类数据
A)结构化数据
B)非结构化数据
C)半结构化数据
D)准结构化数据
31.[单选题]()不属于聚类性能度量外部指标。
A)Jaccard 系数
B)FM系数
C)Rand 指数
D)DB指数
32.[单选题]HBase分布式模式最好需要()个节点?
A)1
B)2
C)3
D)最少
33.[单选题]业务部门梳理本专业(),制定数据转换需求,提高数据可读性,丰富完善一手数据资源。
A)原始数据
B)结构化数据
C)非结构化数据
D)所有数据
34.[单选题]数据加工的本质是()
A)、探索数据分析
B)、将低层次数据转换为高层次数据
C)、处理数据
D)、生成新的数据
35.[单选题]以下关于选用Kafka等消息系统的原因描述错误的是( )。
A)解耦:消息系统在处理过程中插入一个隐含、基于数据的接口层。
B)同步通信:消息队列允许消息加入队列,等需要时再处理。
C)扩展性:消息队列解耦处理过程,容易扩展处理过程。
D)冗余:消息队列持久化,防止数据丢失
36.[单选题]互联网接入服务包含( )等接入方式的接入服务
A)固定速率独享端口
B)动态速率独享端口
C)共享端口
D)三个选项都是
37.[单选题]使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?
A)探索性数据分析
B)建模描述
C)预测建模
D)寻模式和规则
38.[单选题]YARN的基于标准调度,是对下列选项中的( )进行标签化。
A)AppMaster
B)ResourceManager
C)NodeManager
D)Container
39.[单选题]下列关于RDD说法,描述有误的是?
A)一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
B)每个RDD可分成多个分区,每个分区就是一个数据集片段
C)RDD是可以直接修改的
D)RDD提供了一种高度受限的共享内存模型
40.[单选题]什么关于TF-IDF模型描述错误的是?
A)TF意思是词频
B)IDF是逆文本频率

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。