大数据核心技术A卷--688IT编程网

岭南师范学院2015 年－ 2016 学年度第二学期

期末考试试题A卷

(考试时间: 120 分钟)

考试科目：大数据核心技术

题号	一	二	三	四hbase官方文档	五	总分	总评分人	复查人
分值	30	16	20	24	10
得分

得分	评卷人

一、单项选择题(每小题 2 分，共 30 分)

请把答案写在下表中，写在试题后无效。

题号	1	2	3	4	5	6	7	8
答案
题号	9	10	11	12	13	14	15
答案

1. 下面哪个程序负责 HDFS 数据存储。（C ）

A. NameNode B. Jobtracker

C. Datanode D. secondaryNameNode

2. HDFS 中的 block 默认保存几个备份。（ A ）

A. 3 份 B. 2 份

C. 1 份 D. 不确定

3. HDFS1.0 默认 Block Size大小是多少。（ B ）

A. 32MB B. 64MB

C. 128MB D. 256MB

4. 下面哪个进程负责 MapReduce 任务调度。（ B ）

A. NameNode B. Jobtracker

C. TaskTracker D. secondaryNameNode

5. Hadoop1.0默认的调度器策略是哪个。（ A ）

A. 先进先出调度器 B. 计算能力调度器

C. 公平调度器 D. 优先级调度器

6. Client 端上传文件的时候下列哪项正确？（ B ）

A. 数据经过 NameNode 传递给 DataNode

B. Client 端将文件切分为 Block，依次上传

C. Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作

D. 以上都不正确

7. 在实验集的master节点使用jps命令查看进程时，终端出现以下哪项能说明Hadoop主节点启动成功？（ D ）

A. Namenode, Datanode, TaskTracker

B. Namenode, Datanode, secondaryNameNode

C. Namenode, Datanode, HMaster

D. Namenode, JobTracker, secondaryNameNode

8. 若不针对MapReduce编程模型中的key和value值进行特别设置，下列哪一项是MapReduce不适宜的运算。（ D ）

A. Max B. Min

C. Count D. Average

9. MapReduce编程模型，键值对<key, value>的key必须实现哪个接口？（ A ）

A. WritableComparable B. Comparable

C. Writable D. LongWritable

10. 以下哪一项属于非结构化数据。（C）

A. 企业ERP数据 B. 财务系统数据

C. 视频监控数据 D. 日志数据

11. HBase数据库的BlockCache缓存的数据块中，哪一项不一定能提高效率。（ D ）

A. –ROOT-表 B. .META.表

C. HFile index D. 普通的数据块

12. HBase是分布式列式存储系统，记录按什么集中存放。（ A ）

A. 列族 B. 列

C. 行 D. 不确定

13. HBase的Region组成中，必须要有以下哪一项。（ B ）

A. StoreFile B. MemStore

C. HFile D. MetaStore

14. 客户端首次查询HBase数据库时，首先需要从哪个表开始查。（ B ）

A. .META. B. –ROOT-

C. 用户表 D. 信息表

15、设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。（ A ）

A. 分桶 B. 分区

C. 索引 D. 分表

得分	评卷人

二、判断题(每题 2 分，共 16 分)

请在下表中填写√或者×，写在试题后无效。

题号	1	2	3	4	5	6	7	8
答案

1. Hadoop 支持数据的随机读写。（hbase支持，hadoop不支持）（错）

2. NameNode 负责管理元数据信息metadata，client 端每次读写请求，它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。（内存中读取）（错）

3. MapReduce 的 input split 一定是一个 block。（默认是）（错）

4. MapReduce适于PB级别以上的海量数据在线处理。（离线）（错）

5. 链式MapReduce计算中，对任意一个MapReduce作业，Map和Reduce阶段可以有无限个Mapper，但Reducer只能有一个。（对）

6. MapReduce计算过程中，相同的key默认会被发送到同一个reduce task处理。（对）

7. HBase对于空（NULL）的列，不需要占用存储空间。（没有则空不存储）（对）

8. HBase可以有列，可以没有列族（column family）。（有列族）（错）

得分	评卷人

三、简答题(每小题 5 分，共 20 分)

1. 简述大数据技术的特点。

答：Volume（大体量）：即可从数百TB到数十数百PB、甚至EB规模。

Variety（多样性）：即大数据包括各种格式和形态的数据。

Velocity（时效性）：即很多大数据需要在一定的时间限度下得到及时处理。

Veracity（准确性）：即处理的结果要保证一定的准确性。

Value（大价值）：即大数据包含很多深度的价值，大数据分析挖掘和利用带来巨大的商业价值。

2. 启动Hadoop系统，当使用bin/start-all.sh命令启动时，请给出集各进程启动顺序。

答：启动顺序：namenode?–>?datanode?->?secondarynamenode?->?resourcemanager?->?nodemanager?

3. 简述HBase的主要技术特点。

答：（1）列式存储

（2）表数据是稀疏的多维映射表

（3）读写的严格一致性

（4）提供很高的数据读写速度

（5）良好的线性可扩展性

（6）提供海量数据

（7）数据会自动分片

（8）对于数据故障，hbase是有自动的失效检测和恢复能力。

（9）提供了方便的与HDFS和MAPREDUCE集成的能力。

4. Hive数据仓库中，创建了以下外部表，请给出对应的HQL查询语句

CREATE EXTERNAL TABLE sogou_ext (

ts STRING, uid STRING, keyword STRING,

rank INT, order INT, url STRING,

year INT, month INT, day INT, hour INT

)

COMMENT 'This is the sogou search data of extend data'

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE

LOCATION '/sogou_ext/20160508';

（1）给出独立uid总数的HQL语句

答：select?count(distinct UID)?from?sogou_ext;

（2）对于keyword，给出其频度最高的20个词的HQL语句

答：select keyword from sogou_ext group by keyword order by order desc limit 20;

得分	评卷人

四、设计题(每小题 8 分，共 24 分)

1. 100万个字符串，其中有些是相同的（重复），需要把重复的全部去掉，保留没有重复的字符串。请结合MapReduce编程模型给出设计思路或核心代码。

P228

Public static class ProjectionMap extends Mapper<LongWritable,Text,Text,NullWritable>

{

Private int clo;

Project void setup(Context context) throws IOException,InterruptedException{

Configuration().getInt(“col”,0);

688IT编程网

大数据核心技术A卷

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

大数据核心技术A卷

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式