大数据基础习题--688IT编程网

⼤数据基础习题

填空：

1.分布式⽂件系统在物理结构上是由计算机集中的多个节点构成的，这些节点分为两类：⼀类叫__________；另⼀类叫aaS。

5.NoSQL数据库采⽤的是__⾮关系数据__模型。

6.MapReduce1.0采⽤__Master/Slave 架构设计，包括⼀个JobTracker和若⼲TaskTracker

7.RDD是___弹性分布式____数据集。是分布式内存的⼀个抽象概念，提供了⼀种⾼度受限的共享内存模型。

8.阶段/Stage是作业调度的基本单位。

10.与分布式对应的⽅式是____集中式_.。

11.⼤规模数据集的处理包括分布式存储和__分布式计算_____两个核⼼环节。

12.MapReduce的核⼼思想可以⽤___分⽽治之____来描述。

13.写出⼤数据特征的4个V：数据量⼤volume，数据类型繁多 variety，处理速度快velocity，价值密度低value

14.NoSQL的四⼤类型为键值数据库、列族数据库、⽂档数据库、图数据库

15.在HDFS中，名称节点负责管理分布式⽂件系统的命名空间，保存了两个核⼼的数据结构，即_____FsImage_____和EditLog。

16.BigTable是⼀个分布式存储系统，利⽤⾕歌提出的___MapReduce_______分布式并⾏计算模型来处理海量数据。

17.Shuffle过程分为_Map___端的操作和Reduce端的操作。

18.数据总体上可以分为___流数据______和____静态数据_____。答案：流数据，静态数据

19.UMP系统功能为_容灾_、读写分离、资源管理、资源调度、资源隔离和数据安全。

20.⽬前Spark⽀持三种不同类型的部署⽅式，包括__standalone____、 Spark on Mesos、 Spark on YARN。答案：standalone、Spark on Mesos、Spark on YARN。

21.RDS英⽂全称为__Relational Database Service__。

22.MapReduce的核⼼函数：Map和___Reduce___。

23.MapReduce整个⼯作流程的核⼼环节是__Shuffle__过程。

24.Spark使⽤____DAG_____执⾏引擎以⽀持循环数据流与内存计算.

25.HBase只有⼀个索引—— ⾏键____，通过巧妙的设计，HBase中的所有访问⽅法，或者通过⾏健访问，或者通过⾏健扫描，从⽽使得整个系统不会慢下来。

26.Scala是⼀门现代的多范式编程语⾔，平滑的集成了____⾯向对象_____和____函数式_____的特性，旨在以简练优雅的⽅式来表达常⽤编程模式。

27.RDD中的依赖关系分为____窄依赖_____与___宽依赖______。答案：窄依赖，宽依赖

28.YARN体系结构中包含了三个组件：ResourceManager、___ApplicationMaster

____、NodeManager

29.写出⼤数据特征的4个V？

数据量⼤volume，数据类型繁多 variety，处理速度快velocity，价值密度低value

30.信息科技为⼤数据时代提供技术⽀撑有哪些？

在信息存储⽅⾯，来⾃斯威本科技⼤学（Swinburne University of Technology）的研究团队，在2013年6⽉29⽇刊出的《⾃然通讯（Nature Communications）》杂志的⽂章中，描述了⼀种全新的数据存储⽅式，可将1PB（1024TB）的数据存储到⼀张仅DVD⼤⼩的聚合物碟⽚上。在信息处理⽅⾯，CPU处理能⼒⼤幅提升；在信息传输⽅⾯，⽹络带宽不断增加。

31.参考下图阐述⼤数据的特征。

⼤数据的特征被总结为多个V。该图中给出了4个V，分别是：⼤数据的量Volume之⼤，⼤数据的速度velocity之快，⼤数据的多样化variety，以及⼤数据的价值value密度之低。

32.图中数字3代表什么意思? 备份冗余数⽬

33.在spark-shell中，输⼊语句完成如下功能：打开本地⽂件/usr/，并⽤a对其引⽤。val

File(“file:///usr/”)#&&#val File("/usr/")

34.在spark-shell中，写出实现如下功能的语句：打开Hadoop分布式⽂件/usr/，并保存在word中。

答案:val File(“hdfs:///usr/”)

单选：

1.下述关于hadoop的阐述，正确的是 (D)

A. 是⼀个分布式数据库与并⾏计算系统

B. 是⼀个分布式存储系统与分布式数据库

C. 是⼀个集中式存储与分布式并⾏运算系统

D. 是⼀个分布式存储与分布式并⾏运算系统

2.当⼀个客户端从Zookeeper服务器上拿到-ROOT-表的地址以后，就可以通过 © 到⽤户数据表所在的Region服务器，并直接访问该Region服务器获得数据。

A. A.⼀级寻址

B. B.⼆级寻址

C. C.三级寻址

D. D.四级寻址

3.(A)是HBase中最核⼼的模块，负责维护分配给⾃⼰的Region，并响应⽤户的读写请求。

A. Region服务器

B. Store

C. MemStore缓存

D. StoreFile⽂件

4.下列选项中_B_不是NoSQL数据库的特点。

A. 灵活的可扩展性

B. 动态的数据迁移

C. 灵活的数据模型

D. 与云计算紧密结合

5.下列关于云数据库的特点，错误的是_A_

A. 灵活的关系数据模型

B. 较低的使⽤代价

C. ⾼性能

D. 动态可扩展性

6.MapReduce是____C____编程框架。

A. 分布式并发

B. ⾮分布式并⾏

C. 分布式并⾏

D. ⾮分布式并发

7.JobTracker的三⼤功能不包括(D)

A. 资源管理

B. 任务调度

C. 任务监控

D. 调度Map/Reduce任务的执⾏

8.“⽤户原创内容”的数据产⽣⽅式对应于下⾯哪个阶段？（B）

A. web1.0

B. web2.0

C. 互联⽹

D. 物联⽹

9.以下不属于Action API的是（B）。

A. count()

B. map(func)

C. first()

D. reduce(func)

10.scala>valwordCounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey((a,b) => a + b) scala > llect() 在上⾯的代码中属于“⾏动”类型的操作的是（D）。

A. flatMap()

B. Map()

C. reduceByKey()

D. collect()

11.Map任务的输⼊⽂件、Reduce任务的处理结果都是保存在（B）的。

A. 本地存储

B. 分布式⽂件系统

C. 硬盘

D. 主存

12.以下哪项不是MapReduce体系结构的主要组成部分（D）

A. Client

B. TaskTracker

C. JobTracker

D. TaskScheduler

13.下列选项中（C）不是⽂档数据库的优点

A. 性能好

B. 复杂性低

C. 统⼀的查询语法

D. 数据结构灵活

14.HBase是针对⾕歌BigTable的开源实现，是⼀个⾼可靠、B_、⾯向列、可伸缩的分布式数据库，主要⽤来存储⾮结构化和半结构化的松散数据。

A. A.⾼功能

B. B.⾼性能

C. C.低效率

D. D.⾼质量

15.UMP系统借助于__C___来实现集内部的负载均衡。

A. 主从库实现⽤户调度

B. 主从库实现⽤户代理服务器

C. 利⽤主从库实现⽤户操作的分离

D. 主从库实现⽤户⽇志管理

16.Spark的主要编程语⾔是：（B）。

A. Java

B. Scala

C. Python

D. R

17.以下属于商业级流计算的是：（A）

A. IBM InfoSphere Streams

B. Twitter Storm

C. Yahoo! S4

D. FaceBook Puma

18.下列选项不属于Zookeeper主要发挥的作⽤的是__D

A. 提供分布式锁

B. 监控所有MySQL实例

C. 作为全局的配置服务器

D. ⽀持透明的数据分⽚作⽤

19.以下哪项步骤不包含在溢写过程中（B）

A. 分区

B. ⽂件归并

C. 排序

D. 合并

20.下列哪个不是连接RDS for MySQL数据库的⽅法（C）

A. 使⽤客户端MySQL-Front访问

B. 使⽤数据库管理⼯具Navicat_MySQL

C. Shell命令

D. 使⽤MySQL命令登录

21.MapReduce的处理单位是（B）

A. block

B. split

C. Map

D. RR

22.以下不属于hadoop存在的缺点的是：（B）

A. 表达能⼒有限

B. 编程模式灵活

C. 磁盘IO开销⼤

D. 延迟⾼

23.⾕歌的GFS和MapReduce等⼤数据技术受到追捧，Hadoop平台开始⼤⾏其道是在⼤数据发展的那个时期（B ）

A. 第⼀阶段

B. 第⼆阶段

C. 第三阶段

D. 第四阶段

24.每个Map任务分配⼀个缓存，MapReduce默认缓存是（A）

A. 100MB

B. 80MB

C. 120MB

D. 200MB

多选：

1.MapReduce执⾏的全过程包括以下⼏个主要阶段（ABCD）

A. 从分布式⽂件系统读⼊数据

B. 执⾏Map任务输出中间结果

C. 通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务

D. 执⾏Reduce任务得到最终结果并写⼊分布式系统⽂件

2.HDFS特殊的设计，在实现上述优良特性的同时，也使得⾃⾝具有⼀些应⽤局限性，主要包括以下⼏个⽅⾯ (AB)

A. A.不适合低延迟数据访问

B. B.⽆法⾼效存储⼤量⼩⽂件

C. C.不⽀持单⽤户写⼊及任意修改⽂件

D. D.硬件设备昂贵

3.最终⼀致性根据更新数据后各进程访问到数据的时间和⽅式的不同，可以进⾏区别。下列说法正确的是 ABCD

A. 因果⼀致性

B. 读⼰之所写⼀致性

C. 单调读⼀致性$会话⼀致性

D. 单调写⼀致性

4.Reduce端的Shuffle过程包括(ABD)

A. “领取”数据

B. 归并数据

C. 溢写

D. 把数据输⼊到Reduce任务

5.采⽤HDFS联邦的设计⽅式，可解决单名称节点以下问题(ABD)

A. HDFS集可扩展性

B. 性能更⾼效

C. 单点故障问题

D. 良好的隔离性

shell命令属于什么语言6.MapReduce1.0架构设计具有⼀些很难克服的缺陷，包括(ABCD)

A. 存在单点故障

B. JobTracker“⼤包⼤揽”导致任务过重

C. 容易出现内存溢出

D. 资源划分不合理

7.三次信息化浪潮的标志有哪些（ABC）

A. 个⼈计算机

B. 互联⽹

C. 物联⽹，云计算和⼤数据

D. ⼈⼯智能

8.信息科技需要解决的核⼼问题包括：（ACD）

A. 信息存储

B. 信息可视

C. 信息传输

D. 信息处理

9.以下属于批处理⼤数据计算的产品有：（AC）

A. MapReduce

B. Storm

C. Spark

D. Pregel

10.以下属于图计算的产品有：（ABCD）

A. Pregel

B. GraphX

C. Giraph

D. PowerGraph

11.访问HBase表中的⾏有哪⼏种⽅式（ABD）

A. 通过单个⾏键

B. ⾏键的区间

C. 列族

D. 全表扫描

12.⼤数据对科学研究有哪些影响（ABCD）

A. 第⼀范式：实验科学

B. 第⼆范式：理论科学

C. 第三范式：计算科学

D. 第四范式：数据密集型科学

688IT编程网

大数据基础习题

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

大数据基础习题

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式