大数据开发基础(习题卷12)
第1部分:单项选择题,共145题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]Spark中Job 的划分是依据( )
A)依赖
B)Action 算子
C)Trans for mation 算子
答案:B
解析:
2.[单选题]GES能够处理海量数据的原因是()。
A)基于HBase的分布式存储机制
B)图机制特性
C)基于Elasticsearch的素引机制
D)基于Spark的分布式内存计算技术
答案:A
解析:
3.[单选题]下列关于气泡图的说法中,错误的是( )
A)气泡图中气泡的颜是系统统一设置的,无法人为调整
B)气泡大小的不同意味着所代表的的数值的不同
C)气泡图中的图形形状不一定是圆形
D)可以为每个气泡打上标签使其展示的数值更加直观化
答案:A
解析:
4.[单选题]having, where, group by的正确执行顺序是( )。
A)having, where, group by
B)where, group by, having
C)where, having, group by
D)group by, having, where
答案:B
解析:
5.[单选题]阅读以下代码,回答问题,当n是11的时候,s为多少1 def total(n):2 s=03 i=14 while (i
A)55
B)66
C)44
D)50
答案:B
解析:
6.[单选题]线性模型中的权重w值可以看做各个属性x的()。
A)正则化系数
B)对最终决策结果的贡献度
C)高维映射
D)取值
解析:
7.[单选题]下列方法中,默认删除列表最后一个元素的是( )。
A)del
B)remove()
C)pop()
D)extend()
答案:C
解析:
8.[单选题]以下属于非监督学习算法的是()
A)SVM
B)knn
C)k-means
D)LR
答案:C
解析:
9.[单选题]当 Hive 提供的内置函数无法满足业务处理需要时,此时就可以考虑使用用户自定义函数。()作用于单个数据行,产生一个数据行作为输出,例如:数学函数,字符串函数。
A)UAF
B)UDF
C)UDAF
D)UDTF
答案:B
解析:
10.[单选题]以下关于机器学习描述错误的是(__)。
A)机器学习的目标是使学得的模型能很好地适用于“新样本”
B)学得模型适用于新样本的能力,称为“泛化”能力
C)具有强泛化能力的模型不能很好地适用于整个样本空间
D)一般认为,数据样本越多,获得的模型的泛化能力越强
答案:C
解析:
11.[单选题]对于GaussDB 200的数据并行导入策略Normal,下列说法错误的是() ?
A)通过GDS服务的方式实现数据并行导入。
B)导入的效率和GDS服务器有关,GDS服务器越多,导入效率越快。
C)数据导入时,支持单行数据大小小于1GB.
D)能够将数据库的数据.表结构都导入。
答案:C
解析:
字符串处理函数 如果是a展示b
12.[单选题]Flume传输的基本单元是( )。
A)数据流
B)源
C)块
D)Flume事件
答案:D
解析:
13.[单选题]给定词汇表如下:{"Bob", "ok", "like", "football", "car"}。则下面句子“Bot likes football"的词袋模型表示为:
A)[1 1 1 0 0]
B)[1 0 1 1 0]
C)[1 0 0 1 0]
D)[0 1 1 0 1]
答案:B
解析:
14.[单选题]下列说法中,关于客户端从HDFS中读取数据的说法错误的是()
A)客户端会选取排序靠前的DataNode来依次读取Block块
B)客户端会把最终读取出来所有的Block块合并成一个完整的最终文件
C)客户端会选取排序靠后的DataNode来依读取Block块
D)如果客户端本身就是DataNode,那么将从本地直接获取数据
答案:C
解析:
15.[单选题]( )是利用样本的实际资料计算统计量的取值,并引来以检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法。
A)假设检验
B)逻辑分析
C)方差分析
D)回归分析
答案:A
解析:假设检验又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
16.[单选题]数据科学项目应遵循一般项目管理的原则和方法,涉及()。
A)整体、范围、时间、成本、质量、沟通、风险、宣传、消费
B)整体、范围、时间、成本、质量、人力资源、沟通、风险、采购
C)整体、范围、时间、成本、质量、人力资源、运维、采购、宣传
D)整体、范围、时间、成本、质量、人力资源、采购、宣传、运维
答案:B
解析:数据科学项目应遵循一般项目管理的原则和方法,涉及整体、范围、时间、成本、质量、人力资源、沟通、风险、采购。
17.[单选题]有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是
(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()
A)2x-Y-4
B)X"十2y=5
C)x+2y=3
D)2x-Y=0
答案:C
解析:
18.[单选题]matplotlib中的axvspan函数作用是什么()
A)在x轴标示不同图形的文本标签图例
B)绘制垂直于x的参考区域
C)添加x轴内容细节的指向性注释文本
D)添加x轴标题
答案:B
解析:
19.[单选题]HBase依赖()提供消息通信机制
A)Zookeeper
B)Chubby
C)RPC
D)Socket
答案:A
解析:记住即可
20.[单选题]在 Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。
A)Pig
B)HBase
C)Hive
D)MapReduce
答案:C
解析:在Hadoop生态系统中,Hive可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言
21.[单选题]数据资产质量管理遵循“谁产生、谁负责”的原则,明确数据资产质量的责任归属,同一责任人产生的同一数据项一年内出现()以上质量问题对责任单位予以通报批评
A)四次
B)三次
C)两次
D)一次
答案:C
解析:
22.[单选题]下面关于MapReduce的描述中正确的是?
A)MapReduce程序必须包含Mapper和Reducer
B)MapReduce程序的MapTask可以任意指定
C)MapReduce程序的ReduceTask可以任意指定
D)MapReduce程序的默认数据读取组件是TextInputFormat
答案:D
解析:
23.[单选题](__)可以理解为对数据管理的管理。
A)数据治理
B)数据统治
C)数据宰相
D)数据战略
答案:A
解析:
24.[单选题]云计算就是把资源都放到()
A)对等网
B)互联网
C)广域网
D)无线网
答案:B
解析:
25.[单选题]假定训练了一个线性 SVM 并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取的措施是()。
A)增加数据点
B)减少数据点
C)增加特征
D)减少特征
答案:C
解析:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。可通过增加特征解决。
26.[单选题]Choice函数属于()函数
A)文本函数
B)数值函数
C)逻辑函数
D)集合函数
答案:C
解析:
27.[单选题]下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是
A)FSDataInputStream扩展了DataInputStream以支持随机读
B)为实现细粒度并行,输入分片(Input Split)应该越小越好
C)一台机器可能被指派从输入文件的任意位置开始处理一个分片
D)输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
答案:B
解析:每个分片不能太小,否则启动与停止各个分片处理所需的开销将占很大一部分执行时间
28.[单选题]客户IT系统中Fusionlnsight HD集有150个节点,每个节点12块磁盘(不做Raid,不包括OS盘)每个磁盘大小 1T只安装HDF,按照默认配置最大可存储多少数据
A)1764TB
B)1800TB
C)600TB
D)588TB
答案:D
解析:
29.[单选题]Hadoop中,如果将yarn. QueueA.minimum-user-limit-percent设置为50,下面说法错误的是?
A)一个用户提交任务,可以使用QueueA的100%的资源
B)QueueA中的每个用户最多只能获得50%的资源
C)如果QueueA中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源
D)QueueA中必须保障每个用户至少得到50%的资源
答案:B
解析:
30.[单选题]关于表连接算子的说法错误的是(?
A)聚合操作如 group by会触发 NergeJoin
B)表连接算子主要有 Nestloop MergeJoin. Minorjoin. HashJoin
C)算子的选择是SQL根据逻辑≡行选择的,与人为无关。
D)默认情况下,执行效率来说 Hashjoin最高。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。