岭南师范学院2015 年- 2016 学年度第二学期
期末考试试题A卷
(考试时间: 120 分钟)
考试科目:  大数据核心技术   
题 号
hbase官方文档
总 分
总评分人
复查人
分 值
30
16
20
24
10
得 分
得分
评卷人
一、单项选择题(每小题 2 分,共 30 分)
请把答案写在下表中,写在试题后无效。
题号
1
2
3
4
5
6
7
8
答案
题号
9
10
11
12
13
14
15
答案
1. 下面哪个程序负责 HDFS 数据存储。                  (C  )
A. NameNode    B. Jobtracker
C. Datanode      D. secondaryNameNode
2.  HDFS 中的 block 默认保存几个备份。            ( A  )
A. 3 份          B. 2 份
C. 1 份          D. 不确定
3.  HDFS1.0 默认 Block Size大小是多少。            ( B  )
A. 32MB        B. 64MB
C. 128MB      D. 256MB
4. 下面哪个进程负责 MapReduce 任务调度。                ( B  )
A. NameNode          B. Jobtracker
C. TaskTracker      D. secondaryNameNode
5. Hadoop1.0默认的调度器策略是哪个。                    ( A  )
A. 先进先出调度器    B. 计算能力调度器
C. 公平调度器        D. 优先级调度器
6. Client 端上传文件的时候下列哪项正确?                (  B )
A. 数据经过 NameNode 传递给 DataNode
B. Client 端将文件切分为 Block,依次上传
C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D. 以上都不正确
7. 在实验集的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?                                              (  D )
A. Namenode, Datanode, TaskTracker     
B. Namenode, Datanode, secondaryNameNode
C. Namenode, Datanode, HMaster 
D. Namenode, JobTracker, secondaryNameNode
8. 若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。                                              (  D )
A. Max                B. Min
C. Count            D. Average
9. MapReduce编程模型,键值对<key, value>的key必须实现哪个接口?      ( A  )
A. WritableComparable    B. Comparable
C. Writable              D. LongWritable
10. 以下哪一项属于非结构化数据。(C)
A. 企业ERP数据          B. 财务系统数据
C. 视频监控数据          D. 日志数据
11. HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。  ( D  )
A. –ROOT-表            B. .META.表
C. HFile index          D. 普通的数据块
12. HBase是分布式列式存储系统,记录按什么集中存放。                    ( A  )
A. 列族                  B. 列
C. 行                    D. 不确定
13. HBase的Region组成中,必须要有以下哪一项。                        (  B )
A. StoreFile            B. MemStore
C. HFile              D. MetaStore
14. 客户端首次查询HBase数据库时,首先需要从哪个表开始查。            ( B  )
A. .META.              B. –ROOT-
C. 用户表                D. 信息表
15、设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。                                                                (  A )
A. 分桶                  B. 分区
C. 索引                  D. 分表
得分
评卷人
二、判断题(每题 2 分,共 16 分)
请在下表中填写√或者×,写在试题后无效。
题号
1
2
3
4
5
6
7
8
答案
   
  1. Hadoop 支持数据的随机读写。 (hbase支持,hadoop不支持)                ( 错  )
2. NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取)       ( 错  )
3. MapReduce 的 input split 一定是一个 block。  (默认是)         (  错)
4. MapReduce适于PB级别以上的海量数据在线处理。  (离线)          (  错 )
5. 链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。                                    (  对 )
6. MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理。(  对 )
7. HBase对于空(NULL)的列,不需要占用存储空间。  (没有则空不存储)( 对  )
8. HBase可以有列,可以没有列族(column family)。  (有列族)      (  错 )
得分
评卷人
三、简答题(每小题 5 分,共 20 分)
    1. 简述大数据技术的特点。
  答:Volume(大体量):即可从数百TB到数十数百PB、甚至EB规模。
Variety(多样性):即大数据包括各种格式和形态的数据。
Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。
Veracity(准确性):即处理的结果要保证一定的准确性。
Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。
2. 启动Hadoop系统,当使用bin/start-all.sh命令启动时,请给出集各进程启动顺序。
答:启动顺序:namenode?–>?datanode?->?secondarynamenode?->?resourcemanager?->?nodemanager?
3. 简述HBase的主要技术特点。
答:(1)列式存储
(2)表数据是稀疏的多维映射表
(3)读写的严格一致性
(4)提供很高的数据读写速度
(5)良好的线性可扩展性
(6)提供海量数据
(7)数据会自动分片
(8)对于数据故障,hbase是有自动的失效检测和恢复能力。
(9)提供了方便的与HDFS和MAPREDUCE集成的能力。
4. Hive数据仓库中,创建了以下外部表,请给出对应的HQL查询语句
CREATE EXTERNAL TABLE sogou_ext (
ts   STRING,    uid   STRING,   keyword STRING, 
rank INT,     order INT,      url   STRING, 
year INT,      month INT,      day   INT,   hour INT
)
COMMENT 'This is the sogou search data of extend data'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/sogou_ext/20160508';
(1)给出独立uid总数的HQL语句
答:select?count(distinct UID)?from?sogou_ext;
(2)对于keyword,给出其频度最高的20个词的HQL语句
答:select keyword from sogou_ext group by keyword order by order desc limit 20;
得分
评卷人
四、设计题(每小题 8 分,共 24 分)
  1. 100万个字符串,其中有些是相同的(重复),需要把重复的全部去掉,保留没有重复的字符串。请结合MapReduce编程模型给出设计思路或核心代码。
P228
Public static class  ProjectionMap extends Mapper<LongWritable,Text,Text,NullWritable>
{
Private int clo;
Project void setup(Context context) throws IOException,InterruptedException{
    Configuration().getInt(col,0);

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。