Hadoop基础(习题卷5)
说明:答案和解析在试卷最后
第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]使用下面那个命令可以将HDFS目录中所有文件合并到一起
A)putmerge
B)getmerge
C)remerge
D)mergeALL
2.[单选题]下列关于Map/Reduce并行计算模型叙述正确的一项为________。
A)Map/Reduce把待处理的数据集分割成许多大的数据块
B)大数据块经Map()函数并行处理后输出新的中间结果
C)reduce()函数把多任务处理后的中间结果进行汇总
D)reduce阶段的作用接受来自输出列表的迭代器
3.[单选题]Hadoop伪分布式是()
A)一个操作系统
B)一台机器
C)一个软件
D)一种概念
4.[单选题]在MapReduce任务中,下列哪一项会由hadoop自动排序?
A)keys of mapper's output
B)values of mapper's output
C)keys of reducer's output
D)values of reducer's output
5.[单选题]使配置的环境变量生效的命令是(    )
hadoop安装详细步骤linux
A)vi ~/.bashrc
B)source ~/bashrc
C)cat ~/.bashrc
D)source ~/.bashrc
6.[单选题]在命令模式中,以下那个命令不会进入输入模式?
A)q
B)o
C)i
D)a
7.[单选题]DataNode默认存放目录为()
A)/opt/hadoop-record/soft
C)/home/hadoop-record/soft
D)/opt/hadoop-record/data
8.[单选题]HDFS 2.x默认Block Size ( )
A)16MB
B)32MB
C)64MB
D)128MB
9.[单选题]在本次项目实施中,需求调研前的准备不包括( )。
A)充分了解客户的要求,  客户的业务,  客户的关注重点。
B)接到调研任务,  将计划写好,  立即就开始和用户沟 通。
C)编制确定客户需求调研计划和调研提纲。
D)和客户负责人沟通,确定客户需求小组成员。
10.[单选题]在shuffle过程中,圆形缓冲区的内存达到一定数值将执行溢写操作,这个数值的大小是()
A)100
B)90
C)80
D)60
11.[单选题]在Java中,编写线程类,可以通过实现那个接口来实现?
A)Runnable
B)Throwable
C)Serializable
D)Comparable
12.[单选题]下列说法哪项有误?
A)相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
B)Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
C)Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
D)Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
13.[单选题]以下哪个命令,不是Linux命令()
A)pwd
B)cd
C)mkdir
D)ipconfig
14.[单选题]hdfs分布文件系统的描述正确的是( )
A)不支持多用户写入和文件的修改
B)适合用于低延迟数据访问
C)对小文件存储处理效率更高
D)高可靠性、高容错性。
15.[单选题]在Python中,下面代码的输出结果是x= 12.34 print(type(x))
A)<class 'float'>
B)<class 'complex'>
C)<class 'bool'>
D)<class 'int'>
16.[单选题]以下哪个不是Hive的用户接口模块:
A)PMI
B)HWI(Hive Web Interface)
C)JDBC/ODBC
D)Thrift Server
17.[单选题]关于NameNode和Secondary NameNode的说法错误的是()
A)NameNode上实现的NamenodeProtocol用于二者命令通信
B)数据的通信使用的是ftp协议 (http协议)
C)数据通信使用的是http协议
D)协议的容器是jetty
18.[单选题]下列关于Scala特性的描述,错误的是哪一项?
A)Scala语法复杂,但是能提供优雅的API计算
B)Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统
C)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
D)Scala是Spark的主要编程语言
19.[单选题]在Linux中,假设变量a为10,变量b为20,以下表达式返回为false的是:
A)[ $a -ne $b]
B)[ $a -le $b]
C)[!false]
D)[ $a -gt $b]
20.[单选题]关于YARN的说法错误的是?
A)YARN可以支持除了MapReduce之外的其他计算框架
B)YARN是Yet Another Resource Negotiator的缩写
C)YARN可以为上层应用提供统一的资源管理和调度
D)YARN不是通用的资源管理器
21.[单选题]在分布式并行计算体系中,________采用多个指令流同时处理多个数据流。
A)SISD
B)SIMD
C)MISD
D)MIMD
22.[单选题]下列关于Hive基本操作命令的解释错误的是:
A)create database userdb;//创建数据库userdb
B)create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
C)load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
D)insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
23.[单选题]关于shuffle阶段中描述错误的是()
A)shuffle可以分为mapshuffle和reduceshuffle。
B)Shuffle中可以排序
C)Shuffle中有可能有combiner、partition过程。
D)Shuffle中一定不会有压缩过程。
24.[单选题]在项目实施人员中,适时与客户沟通,  确立项目目标, 建立组织机构,编制计划,负责项目全面管理的角是 ( )。
A)实施工程师
B)项目经理
C)产品经理
D)财务人员
25.[单选题]Sqoop 将导入或导出命令翻译成什么程序来实现导入导 出()
A)Spark
B)Storm
C)MapReduce
D)Tez
26.[单选题]以下属于Linux系统特点的是
A)多用户,单任务
B)多用户,多任务
C)单任务,多用户
D)单任务,单用户
27.[单选题]hadoop______中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并到输出。
A)应用场景
B)分布式计算
C)分阶段计算
D)高效处理
28.[单选题]关于基于Hadoop的MapReduce编程的环境配置,下面哪一步是不必要的()
A)安装linux或者在Windows下安装Cgywin
B)安装java
C)安装MapReduce
D)配置Hadoop参数
29.[单选题]CentOS7中卸载自带的jdk使用以下哪个命令()
A)rmp -qu|grep jdk
B)rmp -qa|grep jdk
C)yum -y delete java-1.*
D)yum -y remove java-1.*
30.[单选题]在Java中,以下对于join方法描述正确的是
A)join()方法是用于线程同步
B)join()方法是用于线程休眠
C)join()方法是用于线程插队
D)join()方法是用于线程启动
31.[单选题]关于文档数据库的说法,下列哪一项是错误的?
A)数据是规则的
B)性能好(高并发)
C)缺乏统一的查询语法
D)复杂性低
A)Lucene
B)Doug Cutting
C)Apache
D)MapReduce
33.[单选题]下面关于MongoDB说法,哪一项是正确的?
A)具有较差的水平可扩展性
B)设置个别属性的索引来实现更快的排序
C)提供了一个面向文档存储,操作复杂
D)可以实现替换完成的文档(数据)或者一些指定的数据字段
34.[单选题]在Python程序中,关于异常捕捉说法正确的是
A)except后面必须带异常类型
B)except后面可以不带任何异常类型
C)except后面带异常类型才能捕捉所有异常
D)except后面不带任何异常类型也可以识别出具体的异常信息
35.[单选题]完全分布式,不需要修改的配置文件为_______。
l
l
C)hadoop-env.sh
l
36.[单选题]下列关于键值数据库的描述,哪一项是错误的?
A)扩展性好,灵活性好
B)大量写操作时性能高
C)无法存储结构化信息
D)条件查询效率高
37.[单选题]在Linux中,Apache和Tomcat都是服务器,他们之间的相同点有()
A)两者都是Apache组织开发的
B)两者都有HTTP服务的功能
C)两者都是免费的
D)以上全是
38.[单选题]关与Hive与传统关系型数据库的对比,错误的是?(B)
A)Hive基于HDFS存储,理论上存储量可无限扩展,而传统数据库存储量会有上限
B)由于Hive基于大数据平台,所以查询效率比传统数据库快
C)传统关系型数据库的索引机制发展的已经非常成熟,而Hive的索引机制还很低效
D)由于Hive的数据存储在HDFS中,所以可以保证数据的高容错、高可靠
39.[单选题]HDFS 中的 block 默认保存几个备份。
A)2 份
B)3 份
C)1 份
D)不确定
40.[单选题]下面那个选择是正确的?()
A)Job称为多个作业,用于用户的所有计算请求
B)每一个job作业,都需要拆分开,交由多个服务器完成,才分出来的执行单位成为任

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。