第一章测试
1.数据,就是所有能输入到计算机,并被计算机程序处理的符号的总称为( )。
A:对
B:错
答案:A
2.大数据的4V特征包括( )。
A:种类繁多
B:规模庞大
C:变化频繁
D:价值巨大但价值密度低
答案:ABCD
3.2TB数据等于多少GB( )。
A:1024
B:2048
C:2000
D:1000
答案:B
4.大数据包含下面类型( )。
A:非结构化数据
B:结构化数据
C:纯文本数据
D:半结构化数据
答案:ABCD
5.大数据的生命周期一般会经历这么几个阶段( )。
A:可视化
B:采集与预处理
C:分析与挖掘
D:存储与管理
答案:ABCD
6.大数据平台的基本架构,从技术架构的角度,可划分为这几个层次( )。
A:服务封装层
B:数据处理层
C:数据存储层
D:数据采集层
答案:ABCD
7.linux系统中cd命令的作用是( )。
A:移动文件或修改文件名
B:将源文件复制至目标文件
C:进入指定目录
D:删除一个目录中的一个或多个文件kafka命令
答案:C
8.vi编辑器的操作模式共分为( )。
A:输入模式
B:命令模式
C:底线命令模式
D:编辑模式
答案:BCD
第二章测试
9.Flume的Agent包含这些组成部分( )。
A:Sink
B:Event
C:Source
D:Channel
答案:ACD
10.Event由这两部分组成( )。
A:Body
B:Head
C:Array
D:K-V
答案:AB
11.Source是Flume中事件的源头,负责接收数据到Flume Agent,可以处理多种类型、多种格式的数据( )
A:对
B:错
答案:A
12.Channel是位于Source和Sink之间的缓冲区,对Source和Sink进行一对一处理( )
A:错
B:对
答案:A
13.在Flume的配置文件中,对某个目录下文件进行监控的命令是( )。
A:flume-ng
B:/bin/bash -c
C:exec
D:tail -f
答案:D
第三章测试
14.以下说法有误的是( )。
A:“元数据”中不包含真正的文件数据
B:分布式存储系统需要考虑数据的分块问题
C:分布式存储系统可以实现数据容灾
D:传统单机存储方式扩容成本较低
答案:D
15.Hadoop 2.x中HDFS默认的block的大小为( )。
A:32MB
B:64MB
C:128MB
D:256MB
答案:C
16.关于SecondaryNameNode 哪项是正确的( )。
A:SecondaryNameNode 应与 NameNode 部署到一个节点
B:它是 NameNode 的热备
C:它对内存没有要求
D:它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
答案:D
17.以下哪一项用于配置HDFS的block大小( )。
A:dfs.blocksize
B:fs.defaultFS
C:dfs.name.dir
plication
答案:A
18.HDFS中的NameNode节点用于存放元数据,元数据内容包含( )。
A:客户端硬件配置数据
B:数据块与数据节点的映射表
C:文件与数据块的映射表
D:每个数据块的内容
答案:BC
19.如果 NameNode 意外终止,SecondaryNameNode 会接替它使集继续工作。( )
A:对
B:错
答案:B
20.NameNode 负责管理元数据,客户端每次读写请求,它都会从磁盘中读取或者写入元数据信息并反馈客户端。( )
A:对
B:错
答案:B
21.因为 HDFS 有多个数据副本,所以 NameNode 是不存在单点故障问题的。( )
A:对
B:错
答案:B
22.读取HDFS文件可以使用命令hdfs dfs -get。( )
A:对
B:错
答案:A
第四章测试
23.以下说法有误的是( )。
A:Hadoop的MapReduce框架不能容忍任务出错
B:MapReduce编程模型可以分为Map和Reduce两个阶段
C:MapReduce编程模型的核心思想是分而治之
D:分布式计算框架的实现需要考虑网络通信
答案:A
24.下面说法错误的是( )。
A:MapTask负责汇总整个任务的执行结果
B:一个集中某个确定的任务可以存在多个MapTask进程
C:MapReduce任务可以不跑在Hadoop集中
D:MapReduce可以逐行处理文本数据
答案:A
25.下面哪项是错误的( )。
A:MapReduce的输出目录如果已经存在了,任务的输出结果将会覆盖该路径下的原有内容
B:MapReduce作业的运行内存并非越大越好
C:Python提交MapReduce作业时,可以使用-r hadoop指定集模式运行
D:Python提交MapReduce作业时,可以使用-o参数指定输出路径
答案:A
26.MapReduce中Map阶段的输出将作为下面哪个阶段的输入( )。
A:Join
B:Split
C:Reduce
D:Shuffle
答案:C
27.下列关于MapReduce说法正确的是( )。
A:MapReduce程序只能用java语言编写
B:MapReduce是一种计算框架
C:MapReduce隐藏了并行计算的细节,方便使用
D:MapReduce来源于google的学术论文
答案:BCD
第五章测试
28.以下说法有误的是( )。
A:Kafka无法持久化数据
B:Kafka支持离线数据处理
C:实时数据传输问题在高并发场景下尤为明显
D:Kafka由Scala语言编写
答案:A
29.以下对Kafka名词解释错误的是( )。
A:Partition指Kafka的数据副本
B:Broker指Kafka服务器
C:Consumer指消息的消费者
D:Offset是数据在分区中的唯一位置
答案:A
30.对市面上的消息队列产品描述正确的是( )。
A:RabbitMQ支持动态扩展
B:ActiveMQ不支持集模式
C:Kafka支持事务
D:Kafka支持动态扩展
答案:D
31.以下描述正确的是( )。
A:数据发送到Kafka需要经历序列化
B:Kafka的默认客户端端口号是50070
C:Python语言可以通过kafka-python模块使用Kafka客户端
D:utf-8编码方式不支持中文
答案:AC
32.以下对消息模型的说法正确的是( )。
A:发布订阅模型消息可以重复消费
B:点对点模型中同一消息只有一个消费者可以消费
C:发布订阅模型以主题区分消息类别
D:点对点模型中消息被消费后即删除
答案:ABCD

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。