Hadoop期末复习—必备知识--688IT编程网

Hadoop期末复习—必备知识

第⼀章*

⼤数据：

1：什么是⼤数据：

⼀种规模⼤到获取，存储，管理，分析都⼤⼤超过了传统数据库软件⼯具的能⼒范围的数据集合

2：特点：

数据量⼤，类型繁多，处理速度快，价值密度低

3：在零售⾏业的应⽤：

精准定位零售⾏业市场；⽀持⾏业收益管理；挖掘零售⾏业新需求；

Hadoop：

1：Hadoop优势：

⾼效率

可靠性

成本低

扩容能⼒强

⾼容错性

2：Hadoop⽣态系统：

分布式⽂件系统、分布式存储系统（HDFS）

分布式计算框架（MapReduce）

资源管理平台（Yarn）

数据迁移⼯具（sqoop）

数据挖掘算法库（Mahout）

分布式数据库（HBase）

分布式协调服务（Zookeeper）

Hive基于Hadoop的数据仓库

⽇志收集⼯具（Flume）

3：hadoop 1.X与Hadoop2.X区别：

Hadoop1.X的内核主要有：HDFS（分布式存储系统）和MapReduce(分布式计算框架)

Hadoop2.X的内核主要有：HDFS（分布式存储系统）和MapReduce(分布式计算框架)以及Yarn（资源管理平台）和其他⼯作机制的改变（Others）

Hadoop1.X中

1：HDFS由⼀个Namenode和多个Datanode组成，（注意：⼀个Datanode上存储的数据块不可以有相同的），其中Datanode负责存储数据，但是具体数据存储在哪⼀个Datanode上由Namenode决定。

2：MapReduce由⼀个Jobtracker和多个Tasktraker组成，Jobtraker负责接收计算任务，分配给Tasktrak

er执⾏，跟踪，并对其进⾏任务执⾏状况监控。

缺点：

1：HDFS中Namenode与Secondary Namenode单点故障，风险较⼤。其次Namenode内存受限不好扩展。且只有⼀个Namenode需要负责观理所有Datanode.

2:MapReduce中Jobtracker职责过多，访问压⼒太⼤，会影响系统稳定，并且MapReduce难以⽀持出⾃⾝外的框架。

Hadoop2.X:

1：可以同时启动多个Namenode，其中⼀个处于⼯作状态，⼀个处于随时待命的状态，（Hadoop HA=Hadoop ⾼可⽤），当⼀个Namenode宕机，可以在数据不丢失的情况下，⾃动切换到另⼀个Namenode持续提供服务。

2：将Jobtraker中的资源管理和作业控制分开，分别由ResourceManager（负责所有应⽤程序资源分配）和ApplicationMaster（负责管理⼀个应⽤程序）实现，其实就是引⼊了Yarn（资源管理平台，可以为各类应⽤程序进⾏资源管理和调度），可以实现个不同计算模型和各种应⽤之间的交互，使集得到⾼效利⽤。

3:MapRuduce是运⾏在Yarn上的离线处理框架，运⾏环境不在是Jobtracker和Tasktrake等服务组成，⽽是变成通⽤资源管理Yarn和作业控制进程ApplicationMaster，提升了Mapreduce的速度和可⽤性。

第⼆章

1：Hadoop安装

（⼀）启动与关闭Hadoop：

单节点逐个启动：

在主节点上启动HDFS namenode进程：

hadoop-daemon.sh start namenode

在从节点上使⽤指令启动 HDFS DataNode进程：

hadoop-daemon.sh start DataNode

在主节点上使⽤指令启动Yarn RecourseManager进程：

yarn-daemon.sh start recoursemanager

在每个节点上从节点上使⽤指令启动Yarn nodemanager进程：

yarn-daemon.sh start nodemanager

在规划节点Hadoop02使⽤指令启动SecondaryNameNode：

hadoop-daemon.sh start secondarynamenode

脚本⼀键启动和关闭：

在主节点Hadoop上使⽤指令启动所有HDFS服务进程：

start-dfs.sh

在主节点Hadoop01上使⽤指令启动所有Yarn服务进程：

start-yarn.sh

将以上指令start改为stop就为关闭服务命令

2：通过UI查看Hadoop运⾏状态：

在Hadoop集开放后默认开放了端⼝：

50070：监控HDFS集主要为：namenode

8088：监控Yarn集

3：Hadoop集配置⽂件：

配置集主节点：

修改hadoop-env.sh⽂件：配置Hadoop运⾏环境下所需的JDK环境变量

修改l⽂件：配置HDFS地址，端⼝号以及临时⽂件（HDFS的主进程NameNode运⾏主机，也就是Hadoop集的主节点，同时配置Hadoop运⾏是所⽣成数据的临时⽬录）

修改l⽂件：配置HDFS上的NameNodo和DataNode量⼤进程。（配置了HDFS数据块的副本数量集备份数量（默认为3），并根据需要设置了SecondaryNameNode所在服务的HTTP协议地址）

修改l⽂件：⽤于指定MapReduce运⾏时的框架

修改l⽂件：配置Yarn运⾏RecourseManager运⾏主机号和NodeManager运⾏时的附属服务需要配置为MapReduce-shuffle才能正常运⾏MapReduce默认程序

修改slaves⽂件。打开该配置⽂件，先删除⾥⾯的内容（默认localhost）：记录Hadoop集所有从节点的主机名（HDFS的DataNode和Yarn的NodeManager）

将集主节点的配置⽂件分发到其他⼦节点:

完成Hadoop集主节点hadoop01的配置后，还需要将系统环境配置⽂件、JDK安装⽬录和Hadoop安装⽬录分发到其他⼦节点

hadoop02和hadoop03上，具体指令：

$ scp /etc/profile hadoop02:/etc/profile

hadoop分布式集搭建

$ scp /etc/profile hadoop03:/etc/profile

$ scp -r /export/ hadoop02:/

$ scp -r /export/ hadoop03:/

4：

5：Hadoop安装步骤：

下载安装包

解压安装Hadoop

配置Hadoop环境变量

验证Hadoop环境

6:Hadoop安装⽬录

bin：存放操作Hadoop相关服务的脚本

sbin：存放Hadoop相关管理脚本

etc：存放Hadoop配置⽂件（Hadoop2.X新增l)

include:Hadoop对外编程库头⽂件

lib:hadoop 对外编程动态库和静态库

libexec：Hadoop服务对⽤的shell配置⽂件所在⽬录

shave：Hadoop各个模块编译后的jar包所在的⽬录

src:Hadoop源码包

7：虚拟机安装

过程：

下载安装

创建虚拟机：（操作系统选择—虚拟机命名—处理器配置—虚拟机内存—指定磁盘容量—-创建完成）

虚拟机初始化：（镜像⽂件配置—-磁盘格式化—主机名配置—⽹络配置—-时区配置—系统⽤户名配置—-磁盘格式化）8：虚拟机克隆

完整克隆：是对原始虚拟机的完全独⽴的⼀个复制，它不和虚拟机共享任何资源，可以完全脱离虚拟机独⽴使⽤。

链接克隆：需要和原始虚拟机共享同⼀虚拟磁盘⽂件，不能脱离原始虚拟机独⽴运⾏。但是，采⽤共同磁盘⽂件可以为创建虚拟机的节省时间，同时还节省物理磁盘空间。

完全克隆的虚拟机⽂件相对独⽴并且安全，在实际开发中应⽤⼴泛。

9：

命令：

加载环境变量配置⽂件需要使⽤：

source /etc/profile

格式化HDFS集命令：

hadoop namenode -format

shell命令⽅式：

hadoop fs(适⽤于任何不同⽂件系统，例如本地⽂件系统和HDFS)

hadoop dfs 和 hdfs dfs(都只适⽤于HDFS⽂件系统)

第三章

1：HDFS的读写原理：

HDFS写数据原理：

688IT编程网

Hadoop期末复习—必备知识

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Hadoop期末复习—必备知识

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式