大数据HCIA练习题(附答案)
一、单选题(共40题,每题1分,共40分)
1、HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?
A、3
B、4
C、5
D、6
正确答案:C
2、下列关于Flinkbarrier描述错误的是?
A、在插入barrier的时候,会暂时阻断数据流
B、一个barrier将本周起快照的数据与下一个周期快照的数据分隔开来
C、barrier周期性插入到数据流中,并作为数据流的一部分随之流动
D、barrier是Flink快照的核心
正确答案:A
3、FusionInsightHD中HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?
A、3
B、4
C、5
D、6
正确答案:C
4、以下关于HBase二级索引的描述哪一项是正确的?
正则化描述正确的是A、二级索引把要查的列与rowkey关联成一个索引表
B、此时列成新的rowkey,原rowkey成为value
C、二级索引查询了2次
D、以上完全正确
正确答案:D
5、Hive中的哪些操作可以合并
A、UNIONALL
B、JOIN
C、SELECT
D、GROUPBY
正确答案:A
6、HBase中数据存储的文件格式是什么?
A、HFile
B、HLog
C、TextFile
D、SequenceFile
正确答案:A
7、spark的核心模块是?
A、sparksql
B、mapreduce
C、sparkstreaming
D、sparkcore
正确答案:D
8、FusionInsightHD中,关于HBase的BIoomFilter特性理解,说法不正确的是?
A、可以用来过滤数据
B、可以用来优化随机读性能
C、会增加存储的消耗
D、可以准确判断某条数据不存在
正确答案:A
9、关于FusionInsightHDStreaming的Supervisor描述正确的是?
A、Supervisor负责资源分配和任务调度
B、Supervisor负责接受Nimbus分配的任务,启动和停止属于自己管理的worker进程
C、Supervisor是运行具体处理逻辑的进程
D、Supervisor是一个Topology中接收数据然后执行处理的组件
正确答案:B
10、关于HBase的Region分裂流程Split的描述不正确的是?
A、Split过程中并没有真正的将文件分开,仅仅是创建了引用文件
B、Split为了减少Region中数据大小,从而将一个Region分裂成两个Region
C、Split过程中该表会暂停服务
D、Split过程中被分裂的Region会暂停服务
正确答案:C
11、Zookeeper的scheme认证方式不包括以下哪项?()
A、sasl
B、world
C、digest
D、auth
正确答案:A
12、在FusionInsightHD中,创建Loader作业的进行数据转换的正确步骤是()
A、加载、转换、输出
B、输入设置、转换、输出
C、加载、转化、抽取
D、抽取、转换、输出
正确答案:B
13、Flume数据采集过程中,下列选项中能对数据进行过滤和修饰的是?
A、Sink
B、ChannelSelector
C、Interceptor
D、Channel
正确答案:C
14、FusionlnsightHD系统中,LDAP数据同步方式是哪个?
A、单向同步
B、双向同步
C、隔离不同步
D、数据交叉同步
正确答案:A
15、FusionlnsightHD中,如果需要查看当前登录HBase的用户和权限组,可以在HBaseshell中执行什么命令?
A、use_permission
B、whoami
C、who
D、get_user
正确答案:B
16、下列选项中,关于Zookeeper可靠性含义说法正确的是?()
A、可靠性通过主备部署莫属实现
B、可靠性是指更新只能成功或者失败,没有中间状态
C、可靠性是指无论哪个Server。对外展示的均是同一个视图
D、可靠性是指一条消息被一个Server接收,它将被所有Server接受
正确答案:D
17、下列那些命令是HDFS下载文件/目录到本地的()
A、dfs-mkdir
B、dfs-put
C、dfs-cat
D、dfs-get
正确答案:D
18、Flink中的()接口用于流数据处理,()接口用于批处理?
A、DataStreamAPI,DataSetAPI
B、DatabatchAPI,DataStreamAPI
C、StreamAPI,BatchAPI
D、BatchAPI,StreamAPI
正确答案:A
19、在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。FusionInsight中,针对小文件的场景通常采用()算子,来对Table中的小文件生成的partition进行合并,减少partition数,从而避免再shuffle的时候,生成过多的hash分桶,提高性能。
A、groupby
B、connect
C、coalesce
D、join
正确答案:C
20、下列选项中,关于Zookeeper可靠性含义说法正确的是?
A、可靠性通过主备部署模式实现
B、可靠性是指一条消息被一个server接收,它将被所有server接受
C、可靠性是指无论哪个server,对外展示的均是同一个视图
D、可靠性是指更新只能成功或者失败,没有中间状态
正确答案:B
21、FusionInsightHD系统中HDFS默认BlockSize是多少?
A、32M
B、64M
C、128M
D、256M
正确答案:C
22、以下关于Kafka的描述错误的有()
A、用作活动流和运营数据处理管道的基础
B、由ApacheHadoop开发,并于2011年开源
C、具有信息持久化、高吞吐、实时等特性
D、使用Scala、Java语言实现
正确答案:B
23、FusionInsightHD集组网设计中,有一种机架可以按照业务需求线性扩展,这种机架被称为()

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。