1+x大数据习题库与参考答案
一、单选题(共90题,每题1分,共90分)
1、hadoop2.0 与 hadoop1.0 区别()
A、增加 YARN
B、增加 HDFS2
C、增加 MapReduce2
D、增加容错机制
正确答案:A
2、YARN哪种调度器采用的是单队列?( )
A、Fair Scheduler
B、Capacity Scheduler
C、FIFO Scheduler
D、ResourceManager
正确答案:C
3、下列分区方式哪个不是采用的Hash方式分区 (.
A、KeyFieldBasedPartitioner
B、BinaryPartitioner
C、HashPartitioner
D、TotalOrderPartitioner
正确答案:D
4、Namenode 在启动时自动进入安全模式,在安全模式阶段,说法错误的是 ( )
A、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
B、根据策略对数据块进行必要的复制或删除mongodb和mysql结合
C、文件系统允许有修改
D、安全模式目的是在系统启动时检查各个 DataNode 上数据块的有效性
正确答案:C
5、在 MapReduce 中 Shuffle 的主要作用是()
A、通过实现自定义的Partitioner 来指定哪些数据进入哪个Reducer
B、对映射后的数据进行排序, 然后输入到 Reducer
C、经过映射后的输出数据会被排序,然后每个映射器会进行分区
D、将数据进行拆分
正确答案:B
6、MapReduce编程模型,键值对<key, value>的key必须实现哪个接口? ( )
A、WritableComparable
B、Comparable
C、Writable
D、LongWritable
正确答案:A
7、ZooKeeper 的特点不包括()
A、顺序一致性
B、可靠性
C、复合系统映像
D、原子性
正确答案:C
8、关于ZooKeeper的说法错误的是?( )
A、ZooKeeper服务端有两种重要的角是Leader和Follower
B、ZooKeeper不存在单点故障的情况
C、客户端可以连接到ZooKeeper集中任一台机器
D、ZooKeeper Leader挂掉之后会自动在其他机器选出新的Leader
正确答案:B
9、显示当前所在目录的命令是()
A、ls
B、cd
C、mkdir
D、pwd
正确答案:D
10、2004年,Google公司发表了主要讲解海量数据的高效计算方法的论文是?( )
A、“Bigtable: A Distributed Storage System for Structured Data”
B、“MapReduce: Simplified Data Processing on Large Clusters”
C、“The Google File System”
D、“The Hadoop File System”
正确答案:B
11、在 HDFS 文件操作中,上传文件的命令是()
A、get
B、put
C、input
D、up
正确答案:B
12、大数据平台项目实施计划不包括()
A、完成大数据平台的安装调试
B、基础平台部署
C、用户环境准备
D、完成大数据平台操作开发
正确答案:D
13、在 hive 中已知表 t est(name)的记录如下, tomTom_green tomlyLily代码 select * from test where name rlike 'tom.*'的结果有( )条记录
A、2
B、3
C、1
D、0
正确答案:B
14、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
A、64MB
B、一个map读取64MB,另外一个map读取11MB
C、75MB
正确答案:C
15、关于Sqoop数据的导入导出描述不正确的是?
A、实现从MySQL到Hive的导入导出
B、实现从HDFS到MySQL的导入导出
C、实现从HDFS到Oracle的导入导出
D、实现从MySQL到Oracle的导入导出
正确答案:D
16、数据节点(DataNode)负责存储数据,一个数据块会在多个DataNode中进行冗余备份,那么HDFS默认存储几份?( )
A、3
B、2
C、5
D、1
正确答案:A
17、Zookeeper生产环境一般采用多少台机器组成集?( D )
A、偶数台(且大于1)
B、3
C、奇数台(且大于1)
D、5
E、1
正确答案:C
18、与Hadoop 1.x相比,Hadoop 2.x采用全新的架构,最明显的变化就是增加了哪个组件?( )
A、HBase
B、MapReduce
C、Yarn
D、Pig
正确答案:C
19、下列选项中,正确描述flume对数据源的支持是?
A、不能使用目录方式
B、不能使用文件系统
C、只能使用HDFS数据源
D、可以配置数据源
正确答案:D
20、下列哪项通常是集的最主要瓶颈 ()
A、内存(由于大数据面临海量数据,读写数据都需要 io,然后还要冗余数据,hadoop 一般备 3 份数据,所以 IO就会打折扣。)
B、网络
C、CPU
D、磁盘IO
正确答案:D
21、Flume在什么地方将事件转换为数据输出?
A、
B、通道
C、槽
D、源
正确答案:B
22、使用HDFS Federation的优点不包括下面哪个选项?( )
A、性能提升。多个NameNode可以提高读写时的数据吞吐量
B、隔离性。使用联邦可隔离不同类型的程序,一定程度上可控制资源的分配
C、DataNode具有可扩展性
D、NameSpace具有可扩展性
正确答案:C
23、在导入开始之前,Sqoop 检索出表中所有的列以及列的SQL 数据类型,这些 SQL 类型被映射什么类型(C)
A、C ++
B、Python
C、Java
D、C
正确答案:C
24、YARN Web界面默认占用哪个端口?( )
A、8088
B、50070
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论