⼤数据基础习题
填空:
1.分布式⽂件系统在物理结构上是由计算机集中的多个节点构成的,这些节点分为两类:⼀类叫__________;另⼀类叫aaS。
5.NoSQL数据库采⽤的是__⾮关系数据__模型。
6.MapReduce1.0采⽤__Master/Slave 架构设计,包括⼀个JobTracker和若⼲TaskTracker
7.RDD是___弹性分布式____数据集。是分布式内存的⼀个抽象概念,提供了⼀种⾼度受限的共享内存模型。
8.阶段/Stage是作业调度的基本单位。
10.与分布式对应的⽅式是____集中式_.。
11.⼤规模数据集的处理包括分布式存储和__分布式计算_____两个核⼼环节。
12.MapReduce的核⼼思想可以⽤___分⽽治之____来描述。
13.写出⼤数据特征的4个V:数据量⼤volume,数据类型繁多 variety,处理速度快velocity,价值密度低value
14.NoSQL的四⼤类型为键值数据库、列族数据库、⽂档数据库、图数据库
15.在HDFS中,名称节点负责管理分布式⽂件系统的命名空间,保存了两个核⼼的数据结构,即_____FsImage_____和EditLog。
16.BigTable是⼀个分布式存储系统,利⽤⾕歌提出的___MapReduce_______分布式并⾏计算模型来处理海量数据。
17.Shuffle过程分为_Map___端的操作和Reduce端的操作。
18.数据总体上可以分为___流数据______和____静态数据_____。答案:流数据,静态数据
19.UMP系统功能为_容灾_、读写分离、资源管理、资源调度、资源隔离和数据安全。
20.⽬前Spark⽀持三种不同类型的部署⽅式,包括__standalone____、 Spark on Mesos、 Spark on YARN。答案:standalone、Spark on Mesos、Spark on YARN。
21.RDS英⽂全称为__Relational Database Service__。
22.MapReduce的核⼼函数:Map和___Reduce___。
23.MapReduce整个⼯作流程的核⼼环节是__Shuffle__过程。
24.Spark使⽤____DAG_____执⾏引擎以⽀持循环数据流与内存计算.
25.HBase只有⼀个索引—— ⾏键____,通过巧妙的设计,HBase中的所有访问⽅法,或者通过⾏健访问,或者通过⾏健扫描,从⽽使得整个系统不会慢下来。
26.Scala是⼀门现代的多范式编程语⾔,平滑的集成了____⾯向对象_____和____函数式_____的特性,旨在以简练优雅的⽅式来表达常⽤编程模式。
27.RDD中的依赖关系分为____窄依赖_____与___宽依赖______。答案:窄依赖,宽依赖
28.YARN体系结构中包含了三个组件:ResourceManager、___ApplicationMaster
____、NodeManager
29.写出⼤数据特征的4个V?
数据量⼤volume,数据类型繁多 variety,处理速度快velocity,价值密度低value
30.信息科技为⼤数据时代提供技术⽀撑有哪些?
在信息存储⽅⾯,来⾃斯威本科技⼤学(Swinburne University of Technology)的研究团队,在2013年6⽉29⽇刊出的《⾃然通讯(Nature Communications)》杂志的⽂章中,描述了⼀种全新的数据存储⽅式,可将1PB(1024TB)的数据存储到⼀张仅DVD⼤⼩的聚合物碟⽚上。 在信息处理⽅⾯,CPU处理能⼒⼤幅提升; 在信息传输⽅⾯,⽹络带宽不断增加。
31.参考下图阐述⼤数据的特征。
⼤数据的特征被总结为多个V。该图中给出了4个V,分别是:⼤数据的量Volume之⼤,⼤数据的速度velocity之快,⼤数据的多样化variety,以及⼤数据的价值value密度之低。
32.图中数字3代表什么意思? 备份冗余数⽬
33.在spark-shell中,输⼊语句完成如下功能:打开本地⽂件/usr/,并⽤a对其引⽤。val
File(“file:///usr/”)#&&#val File("/usr/")
34.在spark-shell中,写出实现如下功能的语句:打开Hadoop分布式⽂件/usr/,并保存在word中。
答案:val File(“hdfs:///usr/”)
单选:
1.下述关于hadoop的阐述,正确的是 (D)
A. 是⼀个分布式数据库与并⾏计算系统
B. 是⼀个分布式存储系统与分布式数据库
C. 是⼀个集中式存储与分布式并⾏运算系统
D. 是⼀个分布式存储与分布式并⾏运算系统
2.当⼀个客户端从Zookeeper服务器上拿到-ROOT-表的地址以后,就可以通过 © 到⽤户数据表所在的Region服务器,并直接访问该Region服务器获得数据。
A. A.⼀级寻址
B. B.⼆级寻址
C. C.三级寻址
D. D.四级寻址
3.(A)是HBase中最核⼼的模块,负责维护分配给⾃⼰的Region,并响应⽤户的读写请求。
A. Region服务器
B. Store
C. MemStore缓存
D. StoreFile⽂件
4.下列选项中_B_不是NoSQL数据库的特点。
A. 灵活的可扩展性
B. 动态的数据迁移
C. 灵活的数据模型
D. 与云计算紧密结合
5.下列关于云数据库的特点,错误的是_A_
A. 灵活的关系数据模型
B. 较低的使⽤代价
C. ⾼性能
D. 动态可扩展性
6.MapReduce是____C____编程框架。
A. 分布式并发
B. ⾮分布式并⾏
C. 分布式并⾏
D. ⾮分布式并发
7.JobTracker的三⼤功能不包括(D)
A. 资源管理
B. 任务调度
C. 任务监控
D. 调度Map/Reduce任务的执⾏
8.“⽤户原创内容”的数据产⽣⽅式对应于下⾯哪个阶段?(B)
A. web1.0
B. web2.0
C. 互联⽹
D. 物联⽹
9.以下不属于Action API的是(B)。
A. count()
B. map(func)
C. first()
D. reduce(func)
10.scala>valwordCounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey((a,b) => a + b) scala > llect() 在上⾯的代码中属于“⾏动”类型的操作的是(D)。
A. flatMap()
B. Map()
C. reduceByKey()
D. collect()
11.Map任务的输⼊⽂件、Reduce任务的处理结果都是保存在(B)的。
A. 本地存储
B. 分布式⽂件系统
C. 硬盘
D. 主存
12.以下哪项不是MapReduce体系结构的主要组成部分(D)
A. Client
B. TaskTracker
C. JobTracker
D. TaskScheduler
13.下列选项中(C)不是⽂档数据库的优点
A. 性能好
B. 复杂性低
C. 统⼀的查询语法
D. 数据结构灵活
14.HBase是针对⾕歌BigTable的开源实现,是⼀个⾼可靠、B_、⾯向列、可伸缩的分布式数据库,主要⽤来存储⾮结构化和半结构化的松散数据。
A. A.⾼功能
B. B.⾼性能
C. C.低效率
D. D.⾼质量
15.UMP系统借助于__C___来实现集内部的负载均衡。
A. 主从库实现⽤户调度
B. 主从库实现⽤户代理服务器
C. 利⽤主从库实现⽤户操作的分离
D. 主从库实现⽤户⽇志管理
16.Spark的主要编程语⾔是:(B)。
A. Java
B. Scala
C. Python
D. R
17.以下属于商业级流计算的是:(A)
A. IBM InfoSphere Streams
B. Twitter Storm
C. Yahoo! S4
D. FaceBook Puma
18.下列选项不属于Zookeeper主要发挥的作⽤的是__D
A. 提供分布式锁
B. 监控所有MySQL实例
C. 作为全局的配置服务器
D. ⽀持透明的数据分⽚作⽤
19.以下哪项步骤不包含在溢写过程中(B)
A. 分区
B. ⽂件归并
C. 排序
D. 合并
20.下列哪个不是连接RDS for MySQL数据库的⽅法(C)
A. 使⽤客户端MySQL-Front访问
B. 使⽤数据库管理⼯具Navicat_MySQL
C. Shell命令
D. 使⽤MySQL命令登录
21.MapReduce的处理单位是(B)
A. block
B. split
C. Map
D. RR
22.以下不属于hadoop存在的缺点的是:(B)
A. 表达能⼒有限
B. 编程模式灵活
C. 磁盘IO开销⼤
D. 延迟⾼
23.⾕歌的GFS和MapReduce等⼤数据技术受到追捧,Hadoop平台开始⼤⾏其道是在⼤数据发展的那个时期(B )
A. 第⼀阶段
B. 第⼆阶段
C. 第三阶段
D. 第四阶段
24.每个Map任务分配⼀个缓存,MapReduce默认缓存是(A)
A. 100MB
B. 80MB
C. 120MB
D. 200MB
多选:
1.MapReduce执⾏的全过程包括以下⼏个主要阶段(ABCD)
A. 从分布式⽂件系统读⼊数据
B. 执⾏Map任务输出中间结果
C. 通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D. 执⾏Reduce任务得到最终结果并写⼊分布式系统⽂件
2.HDFS特殊的设计,在实现上述优良特性的同时,也使得⾃⾝具有⼀些应⽤局限性,主要包括以下⼏个⽅⾯ (AB)
A. A.不适合低延迟数据访问
B. B.⽆法⾼效存储⼤量⼩⽂件
C. C.不⽀持单⽤户写⼊及任意修改⽂件
D. D.硬件设备昂贵
3.最终⼀致性根据更新数据后各进程访问到数据的时间和⽅式的不同,可以进⾏区别。下列说法正确的是 ABCD
A. 因果⼀致性
B. 读⼰之所写⼀致性
C. 单调读⼀致性$会话⼀致性
D. 单调写⼀致性
4.Reduce端的Shuffle过程包括(ABD)
A. “领取”数据
B. 归并数据
C. 溢写
D. 把数据输⼊到Reduce任务
5.采⽤HDFS联邦的设计⽅式,可解决单名称节点以下问题(ABD)
A. HDFS集可扩展性
B. 性能更⾼效
C. 单点故障问题
D. 良好的隔离性
shell命令属于什么语言6.MapReduce1.0架构设计具有⼀些很难克服的缺陷,包括(ABCD)
A. 存在单点故障
B. JobTracker“⼤包⼤揽”导致任务过重
C. 容易出现内存溢出
D. 资源划分不合理
7.三次信息化浪潮的标志有哪些(ABC)
A. 个⼈计算机
B. 互联⽹
C. 物联⽹,云计算和⼤数据
D. ⼈⼯智能
8.信息科技需要解决的核⼼问题包括:(ACD)
A. 信息存储
B. 信息可视
C. 信息传输
D. 信息处理
9.以下属于批处理⼤数据计算的产品有:(AC)
A. MapReduce
B. Storm
C. Spark
D. Pregel
10.以下属于图计算的产品有:(ABCD)
A. Pregel
B. GraphX
C. Giraph
D. PowerGraph
11.访问HBase表中的⾏有哪⼏种⽅式(ABD)
A. 通过单个⾏键
B. ⾏键的区间
C. 列族
D. 全表扫描
12.⼤数据对科学研究有哪些影响(ABCD)
A. 第⼀范式:实验科学
B. 第⼆范式:理论科学
C. 第三范式:计算科学
D. 第四范式:数据密集型科学

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。