一、 单项选择题(共10小题,每小题2分,共计20分)
1. HDFS的最初作者是(  )。
    (A)Martin Fowler    (B)Doug cutting    (C)Kent Beck    (D)Grace Hopper
2. Google GFS的Master上保存了GFS的三种元数据,以下那种元数据不能通过日志文件恢复(    )。
(A)命名空间                    (B)Chunk与文件名的映射表
(C)Chunk副本的位置信息        (D)以上都不能
3. Hadoop 2.x比1.x相比,有什么显著变化?(  )
    (A)增加DataNode                (B)增加NameNode HA
    (C)支持Wire-compatibility        (D)增加了资源管理器YARN
  4. HDFS文件系统的特点不包括(  )。
    (A)擅长并发写  (B)存储超大文件  (C)擅长并发读  (D)廉价硬件
  5. 关于Hadoop MapReduce的执行过程,以下哪个顺序正确?(  )
(A)输入→Reduce→Shuffle→Map→输出
(B)输入→Map→Shuffle→Reduce→输出
(C)输入→Shuffle→Map→Reduce→输出
(D)输入→Map→Reduce→Shuffle→输出
  6. Zookeeper的设计目标不包括(  )。
    (A)独立命名空间        (B)健壮性
    (C)有序性              (D)高并发
7. ACID原则中的I是指(    )
A、独立性         B、一致性            C、持久性       D、原子性
8. 下面选项不属于Amazon提供的云计算服务的是(    )。
(A)弹性计算云服务EC2            (B)简单存储服务S3           
(C)简单队列服务SQS              (D)Net服务
9. ZooKeeper在集模式下运行,那么在部署ZooKeeper集时,至少有几个节点?(  )
    (A)4        (B)3        (C)2        (D)1
10. 以下不属于Gossip协议优点的是(    )。
(A)分布式容错    (B)收敛速度快    (C)去中心化  (D)最终一致性
二、 填空题(共5小题,每空1分,共计10分)
1.云计算提供的三种主要服务类型分别是:                           
2. GFS将整个系统的节点分为三类角:Client(客户端)、                   
3. Hadoop集中MapReduce的底层数据存储在       
4. AWS中提供的非关系数据库主要包括                   
5. Amazon S3存储系统的基本结构中,涉及到的两个基本概念分别是             
三、判断题(共10小题,每小题1分,共计10分,正确打√,错误打×)
1. Hadoop集可以使用性能较差的服务器来搭建。(  )
2. HDFS比较适合存储大文件。(  )
3. HBase的一个表可以存放到多个Region服务器上。(  )
4. 云计算是通过网络按需提供可动态伸缩的较昂贵的计算服务。(    )
5. Hive的元数据和真实数据都存储在HDFS上。(  )
6. 云计算按照部署模式划分,可以分为公有云、私有云和混合云。(    )
7. ZooKeeper中数据节点ZNode的组织方式类似于Unix的文件系统,但ZNode的读写不具有原子性。(  )
8. SaaS虽然能够提高部署的速度,但是其实现和升级的成本也大大增加了。(  )
9. HBase使用ZooKeeper实现集管理功能。(  )
10. Bigtable对存储在其中的数据不做任何解析,一律看做字符串。(    )
四、简答题(共5小题每题6分,共计30分)
1. 云计算的特点有哪些?
2. 虚拟机隔离机制主要包括哪些?
3. 解释HDFS的元数据:fsimage和edits文件的作用云数据库服务
4. 解释下面Hive语句的功能:
  CREATE EXTERNAL TABLE IF NOT EXISTS goods (
    echange      STRING,
    symbol      STRING,
    ymd        STRING,
    price_open    FLOAT,
    price_high    FLOAT,
  }
  PARTITIONED BY (year INT, month INT, day INT)
  ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
5. 容灾备份定义是什么?按照容灾系统对灾难的抵抗程度怎么划分?
五、论述题(共3小题,每题10分,共计30分)
1. 解释什么是结构化数据?什么是非结构化数据?为什么非结构化数据是大数据技术的研究重点? (10分)
2. 请论述云计算与大数据、物联网、人工智能、移动互联网之间的关联性。(10分)
3. 论述阿里云计算架构的主要组成。(10分)
参考答案与评分标准
一、单项选择题(每题2分,共10题,共20分)
题号
1
2
3
4
5
6
7
8
9
10
答案
B
C
D
A
B
C
A
D
B
B
    二、填空题(每空1分,共10分)
    1. SaaS(软件即服务) PaaS(平台即服务) IaaS(基础设施即服务)(中英文均可) 
    2. Master(主服务器)    Chunk Server(数据块服务器)  (中英文均可)
    3. HDFS
    4. SimpleDB    DynamoDB 
    5. 桶(Bucket)   对象(Object)  (中英文均可)
三、判断题(每题1分,共10题,共10分,正确打√,错误打×)
题号
1
2
3
4
5
6
7
8
9
10
答案
×
×
×
×
四、 简答题(每题6分,共5题,共30分)
(注意: 答案不唯一, 只要思路正确, 解释有理有据即可)
1.【答案】
(1)超大规模、极其廉价(1.5分)
(2)高可靠性、高可伸缩性(1.5分)
(3)按需服务、通用性(1.5分)
(4)虚拟化、隐私安全(1.5分)
说明:答案要点如上所述,用类似的话语代替也可以。单项分值如上。
2.【答案】
(1)网络隔离(1分)
(2)构建虚拟机安全文件防护网(1分)
(3)基于访问控制的逻辑隔离机制(1分)
(4)通过硬件虚拟,让每个虚拟机无法突破资源限制(1分)
(5)硬件提供的内存保护机制(1分)
(6)进程地址空间的保护机制,IP地址隔离(1分)
说明:答案要点如上所述,用类似的话语代替也可以。单项分值如上。
3. 【答案】
在hdfs中主要是通过两个数据结构FsImage和EditsLog来实现metadata的更新。在某次启动hdfs时,会从FSImage文件中读取当前HDFS文件的metadata,之后对HDFS的操作步骤都会记录到edit log文件中。(1分)
FsImage :是内存元数据在本地磁盘的映射,用于维护管理文件系统命名空间树,即元数据(metadata) (3分)
Edits :保存了所有对hdfs中文件的操作日志信息 (2分)
4. 【答案】
创建一个外部表goods ,包含5个字段(echange类型为STRING, symbol类型为STRING, ymd类型为STRING, price_open类型为FLOAT, price_high类型为FLOAT)(【答案】,2分)
表的分区依据 year, month, day,类型均为INT(【答案】,2分)
字段的分隔符好为制表符,行结束符号为换行符(【答案】,2分)
5. 【答案】
容灾备份是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。(2分)
按照容灾系统对灾难的抵抗程度可以划分为数据级容灾(2分)和应用级容灾。(2分)
五、论述题(共3题,每题10分,共30分)
(注意: 答案不唯一, 只要思路正确, 案例合理, 解释有理有据即可)
1.【答案】
结构化数据存储在数据库里,可以用二维表结构来逻辑表达实现的数据。(3分)
相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等(3分)。
非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。大数据系统研究的数据90%以上都属于非结构化或者半结构化数据。(4分)
2. 【答案】
大数据、云计算、物联网、人工智能、移动互联网是相辅相成的。(【答案】,2分)
大数据根植于云计算,大数据分析的很多技术都来自于云计算云计算的分布式和数据存储和管理系统包括分布式文件系统和分布式数据库系统提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。(【答案】,2分)
反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。(【答案】,2分)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。