华为大数据练习(习题卷1)
第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]下列选项不支持创建采集元数据任务时添加数据分类,实现自动识别的为:( )。
A)RDS(Mysql)
B)DWS
C)DLI
D)MRS Hive
答案:A
解析:
2.[单选题]若要对图片进行检索,一般选择什么工具较好?()
A)MySQL
B)Hive
C)HDFS
D)ElasticSearch
答案:D
解析:
3.[单选题]为保证流应用的快照存储的可靠性,快照主要存储在:( )。
A)本地文件系统中
B)JobManager的内存中
C)HDFS中
D)可靠性高的单击数据库中
答案:C
解析:
4.[单选题]Kafka 中数据从 Producer 到 Broker 和 Broker 到 Consumer 分别是哪种传递方式?()
A)push,push
B)pull,pull
C)pull,push
D)push,pull
答案:D
解析:
5.[单选题]Elastic Search 是怎么实现 Master 选举的?()
A)借助 ZooKeeper 选举
B)内部自行选举
C)随机生成
D)自行指定
答案:A
解析:
6.[单选题]对于 HBase KeyValue 存储模型描述不正确的是?()
A)同一个 Key 值只能关联一个 Value
B)拥有时间戳、类型等关键信息
D)时间戳来区分多个记录版本
答案:A
解析:
7.[单选题]gateway 在 ElasticSearch 中的含义是?()
A)网关
B)索引的存储方式
C)rpc 请求接口
D)索引快照的存储方式
答案:D
解析:gateway的主要职责是用来对数据进行长持久化(持久化了之后加上版本信息,不就可以自由的往还于过去未来之间了吗?),另外,整个集重启之后可以通过gateway重新恢复数据,是一种索引快照的存储方式
8.[单选题]国网数据中台,是在下面( )数据中心阶段的基础上发展过来的。
A)营销服务中心
B)全业务统一数据中心
C)海量历史/实时数据中心
D)电网GIS数据中心
答案:B
解析:
9.[单选题]第三次信息化浪潮标志不包含以下哪项?()
A)云计算
B)物联网
C)大数据
D)互联网
答案:D
解析:
10.[单选题]对于 Gauss DB 200 的数据存储流程, 下列说法正确的是() ?
A)通过 Gauss DB 200 的数据分布规则数据会自动分布, 那么对表的设计可以比较随意
B)导入的数据直接从客户端进入磁盘中
C)数据的分布一般默认按照分布键的 HASH 值分布
D)数据的分布一般默认按照数据大小均匀分布
答案:C
解析:
11.[单选题]kafka-cluster mirroring工具可以实现( )功能。
A)kafka集数据同步方案
B)kafka单集内数据备份
C)kafka单集内数据恢复
D)以全部不对
答案:A
解析:
12.[单选题]以下哪项属于 Flume 的基础数据单位?()
A)Object
B)Topic
C)Event
D)Subject
解析:
13.[单选题]YARN中默认的资源调度器是:( )。
A)FIFO调度器
B)容量调度器
C)Fair调度器
D)以上全部是
答案:B
解析:
14.[单选题]以下( )组件负责接收来自应用的访问请求,并向客户端返回执行结果。
A)GTM
B)WLM
C)CN
D)DN
答案:C
解析:
15.[单选题]当一个MapReduce应用程序被执行时,如下( )动作是map阶段之前发生的。
A)split
B)combine
hbase属于什么数据库C)partition
D)sort
答案:A
解析:
16.[单选题]当 Spark 发生 Shuffle 时,MapTask 的运算结果会通过()的形式把运算结果分发到对应的 任务上去。()
A)序列化
B)键值化
C)二进制
D)RDD
答案:B
解析:
17.[单选题]在Flink框架中,下列( )是流处理和批处理的计算引擎。
A)standalone
B)Runtime
C)FlinkCore
D)DataStream
答案:B
解析:
18.[单选题]哪个产品适应于 OLAP 场景?()
A)PostgresSQL
B)SQLServer
C)MySQL
D)GaussDB 200
答案:D
解析:
19.[单选题]以下哪项不提供交互式查询服务?()
A)Presto
B)Impala
C)Echart
D)Kylin
答案:C
解析:Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
20.[单选题]考虑以下场景, HBase 有列簇 CF 1, 列 C 1、C 2.当读取 HBase 表时,只要求返回 C1 的 列值,使用下列哪个选项可以实现该功能?()
A)ValueFilte
B)ColumFilter
C)RowFilter
D)QualifierFilter
答案:D
解析:ValueFilter:对值进行过滤,该Filter主要是对值进行过滤,用法和RowFilter类似,只不过侧重点不同而已,针对的是单元值,使用这个过滤器可以过滤掉不符合设定标准的所有单元
QualifierFilterr:基于列限定符(列名)来过滤数据;
DependentColumnFilter :指定一个参考列来过滤其他列的过滤器,过滤的原则是基于参考列的时间戳来进行筛选 。RowFilter :基于行键来过滤数据;
21.[单选题]以下对 GaussDB 200 双 AZ 集描述不正确是?()
A)灾备集不同步数据时,可以提供读写服务
B)主集不可用时,灾备集提供正常服务
C)主集提供正常服务,灾备集只同步数据
D)周期性数据同步
答案:A
解析:
22.[单选题]Gauss DB 200 支持几种数据并行导入策略?()
A)2
B)1
C)4
D)3
答案:D
解析:为了使得数据能够正确、不重复地分配给各DN,保证入库数据的唯一性, GaussDB 200对应提供了三种策略:1、Normal策略:
利用高斯数据服务工具GDS(Gauss Data Service)来管理用户数据,将集之外主机上的数据 导入到集中。
2、Shared策略:
利用网络文件系统NFS(Network File System)服务,将存放用户数据的服务器统一挂载到各 DN所在主机的相同路径下,将集之外主机上的数据导入到集中。
3、Private策略:
用户自行将数据文件上传到各DN所在主机。
23.[单选题]在DRS中,以下迁移任务命名错误的是:( )。
B)ab-cd
C)abcd001
D)abcd#001
答案:D
解析:
24.[单选题]DAYU批量数据迁移(Cloud Data Migration)提供( )数据源之间批量数据迁 移服务,帮助您实现数据自由流动。
A)同构
B)异构
C)同构/异构
D)架构
答案:C
解析:
25.[单选题]用来清理残留事务的工具是:( )。
A)gs_clean
B)gs_guc
C)gs_dump
D)gs_ctrl
答案:A
解析:
26.[单选题]在增量同步阶段,源数据库和目标数据库之间的同步有时会存在一个时间差,称为:( ),单位为秒。
A)延误
B)延后
C)延迟
D)时延
答案:D
解析:
27.[单选题]GaussDB 200 的高可用主要体现在哪些方面()?
A)数据融合
B)分析融合
C)计算融合
D)以上全都正确
答案:D
解析:
28.[单选题]以下哪个不是离线批处理的核心诉求?()
A)处理数据格式多样
B)处理数据量巨大
C)支持 SQL 类作业和自定义作业
D)处理时间要求高
答案:D
解析:
29.[单选题]HDFS 创建目录过程中, 通过调用 FileSystem 实例的() 方法查看该目录是否存在。()
A)exists
B)mkdirs

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。