林子雨大数据技术原理与应用第二章课后题答案--688IT编程网

大数据第二章课后题答案

黎狸

1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。

Hadoop是Apache软件基金会旗下的一-个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。

1Hadoop 的核心是分布式文件系统( Hadoop Ditributed File System,HDFS )和MapReduce。

2HDFS是对谷歌文件系统( Google File System, GFS )的开源实现，是面向普通硬件环境的分布式文件系统，具有较高的读写速度、很好的容错性和可伸缩性，支持大规模数据的分布式存储，其冗余数据存储的方式很好地保证了数据的安全性。

3MapReduce 是针对谷歌MapReduce的开源实现，允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据，可保证分析和处理数据的高效性。

2.试述Hadoop具有哪些特性。

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性。

1高可靠性。采用冗余数据存储方式，即使一个副本发生故障，其他副本也可以保证正常对外提供服务。xml技术的主要应用

2高效性。作为并行分布式计算平台，Hadoop采用分布式存储和分布式处理两大核心技术，能够高效地处理PB级数据。

3高可扩展性。 Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集上，可以扩展到数以千计的计算机节点。

4高容错性。采用冗余数据存储方式，自动保存数据的多个副本，并且能够自动将失败的任务进行重新分配。

5成本低。 Hadoop采用廉价的计算机集，成本比较低，普通用户也很容易用自己的PC搭建Hadoop运行环境。

6运行在 Linux平台上。Hadoop是基于Java语言开发的，可以较好地运行在Linux平台上。

7支持多种编程语言。 Hadoop 上的应用程序也可以使用其他语言编写，如C++。

3.试述Hadoop在各个领域的应用情况。

互联网领域是Hadoop应用的主要阵地。

1雅虎将Hadoop主要用于支持广告系统与网页搜索。

2Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。

3淘宝Hadoop集服务于阿里巴巴集团各部门，数据来源于各部门产品的线上数据库( Oracle、MySQL)备份、系统日志以及爬虫数据，每天在Hadoop集运行各种MapReduce任务,如数据魔方、量子统计、推荐系统、排行榜等。

4百度选择Hadoop主要用于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。

4.试述Hadoop的项目结构以及每个部分的具体功能。

Hadoop项目结构

Pig	Chukwa		Hive		HBase
MapReduce		HDFS		Zookeeper
Common			Avro

各部分具体功能：

1Common。Common为Hadoop其他子项目提供支持的常用工具，主要包括文件系统、RPC（Remote Procedure Call）和串行化库。

2Avro。Avro Avro是Hadoop的一一个子项目，也是Apache中的一个独立项目。Avro是一个用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用( Remote Procedure Call, RPC )的功能和简单的动态语言集成功能。Avro 可以将数据结构或对象转化成便于存储和传输的格式，节约数据存储空间和网络传输带宽, Hadoop的其他子项目(如HBase和Hive )的客户端与服务端之间的数据传输都采用了Avro。

3HDFS。HDFS是针对GFS的开源实现。具有处理强大数据、流式处理、可以运行在廉价的商用服务器上等优点。

4HBase。HBase是针对谷歌的BigTable的开源实现。一般采用HDFS作为其底层数据存储，基于列的存储，具有强大的非结构化数据存储能力。具有良好的横向扩展能力。

5MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。允许用户在不了解分布式系统底层细节的情况下开发并行应用程序，并将其运行于廉价计算机集上，完成海量数据的处理。

6Zookeeper。Zookeeper是针对谷歌Chubby的-一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务( 如统一命名服务、状态同步服务、集管理、分布式应用配置项的管理等),用于构建分布式应用，减轻分布式应用程序所承担的协调任务。

7Hive。Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储，十分适合数据仓库的统计分析。

8 Pig。Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReduce平台来查询大

型半结构化数据集。Pig大大简化了Hadoop常见的工作任务，它在MapReduce的基础上创建了更简单的过程语言抽象，为Hadoop应用程序提供了一种更加接近结构化查询语言(SQL)的接口。

9Sqoop。Sqoop可以改进数据的互操作性，主要用来在Hadoop 和关系数据库之间交换数据。通过Sqoop，可以方便地将数据从MySQL、Oracle 、PostgreSQL 等关系数据库中导人Hadoop (可以导人HDFS、HBase或Hive),或者将数据从Hadoop导出到关系数据库，使得传统关系数据库和Hadoop之间的数据迁移变得非常方便。

10Chukwa。Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保存在HDFS中供Hadoop进行各种MapReduce操作。

5.路径JAVA_ HOME是在哪一个配置文件中进行设置的?

在安装Hadoop的文件夹下的“conf”目录下配置。

6.所有节点的HDFS路径是通过fs.default.name来设置的，请问它是在哪个配置文件中设

置的？

在安装目录下的l 配置文件中配置。

fs.default.name是文件系统的名字。通常是NameNode的hostname与port，需要在每一个需要访问集的机器上指定，包括集中的节点

7.试列举单机模式和伪分布模式的异同点。

相同点：运行机器数相同。单机模式与伪分布式都是在一台单机上运行。

不同点：

1运行模式不同:单机模式是Hadoop的默认模式，即在一台单机上运行,没有分布式文件系统，直接读写本地操作系统的文件系统。伪分布模式但用不同的Java进程模仿分布式运行中的各类结点。

2启动进程不同：单机模式下，Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。伪

分布式模式下，Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行，是相互独立的Java进程。

3配置文件处理方式不同：单机模式下，不对配置文件进行修改。伪分布式模式下，修改3个配置文件：l（Hadoop集的特性，作用于全部进程及客户端）、l（配置HDFS集的工作属性）、l（配置MapReduce集的属性）。

4节点交互不同：单机模式因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。

8.Hadoop伪分布式运行启动后所具有的进程都有哪些?

Hadoop伪分布式运行启动后所具有的进程有：NameNode、DataNode、JobTracker、TaskTracker。

688IT编程网

林子雨大数据技术原理与应用第二章课后题答案

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

林子雨大数据技术原理与应用第二章课后题答案

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式