Hadoop期末复习—必备知识
第⼀章*
⼤数据:
1:什么是⼤数据:
⼀种规模⼤到获取,存储,管理,分析都⼤⼤超过了传统数据库软件⼯具的能⼒范围的数据集合
2:特点:
数据量⼤,类型繁多,处理速度快,价值密度低
3:在零售⾏业的应⽤:
精准定位零售⾏业市场;⽀持⾏业收益管理;挖掘零售⾏业新需求;
Hadoop:
1:Hadoop优势:
⾼效率
可靠性
成本低
扩容能⼒强
⾼容错性
2:Hadoop⽣态系统:
分布式⽂件系统、分布式存储系统(HDFS)
分布式计算框架(MapReduce)
资源管理平台(Yarn)
数据迁移⼯具(sqoop)
数据挖掘算法库(Mahout)
分布式数据库(HBase)
分布式协调服务(Zookeeper)
Hive基于Hadoop的数据仓库
⽇志收集⼯具(Flume)
3:hadoop 1.X与Hadoop2.X区别:
Hadoop1.X的内核主要有:HDFS(分布式存储系统)和MapReduce(分布式计算框架)
Hadoop2.X的内核主要有:HDFS(分布式存储系统)和MapReduce(分布式计算框架)以及Yarn(资源管理平台)和其他⼯作机制的改变(Others)
Hadoop1.X中
1:HDFS由⼀个Namenode和多个Datanode组成,(注意:⼀个Datanode上存储的数据块不可以有相同的),其中Datanode负责存储数据,但是具体数据存储在哪⼀个Datanode上由Namenode决定。
2:MapReduce由⼀个Jobtracker和多个Tasktraker组成,Jobtraker负责接收计算任务,分配给Tasktrak
er执⾏,跟踪,并对其进⾏任务执⾏状况监控。
缺点:
1:HDFS中Namenode与Secondary Namenode单点故障,风险较⼤。其次Namenode内存受限不好扩展。且只有⼀个Namenode需要负责观理所有Datanode.
2:MapReduce中Jobtracker职责过多,访问压⼒太⼤,会影响系统稳定,并且MapReduce难以⽀持出⾃⾝外的框架。
Hadoop2.X:
1:可以同时启动多个Namenode,其中⼀个处于⼯作状态,⼀个处于随时待命的状态,(Hadoop HA=Hadoop ⾼可⽤),当⼀个Namenode宕机,可以在数据不丢失的情况下,⾃动切换到另⼀个Namenode持续提供服务。
2:将Jobtraker中的资源管理和作业控制分开,分别由ResourceManager(负责所有应⽤程序资源分配)和ApplicationMaster(负责管理⼀个应⽤程序)实现,其实就是引⼊了Yarn(资源管理平台,可以为各类应⽤程序进⾏资源管理和调度),可以实现个不同计算模型和各种应⽤之间的交互,使集得到⾼效利⽤。
3:MapRuduce是运⾏在Yarn上的离线处理框架,运⾏环境不在是Jobtracker和Tasktrake等服务组成,⽽是变成通⽤资源管理Yarn和作业控制进程ApplicationMaster,提升了Mapreduce的速度和可⽤性。
第⼆章
1:Hadoop安装
(⼀)启动与关闭Hadoop:
单节点逐个启动:
在主节点上启动HDFS namenode进程:
hadoop-daemon.sh start namenode
在从节点上使⽤指令启动 HDFS DataNode进程 :
hadoop-daemon.sh start DataNode
在主节点上使⽤指令启动Yarn RecourseManager进程:
yarn-daemon.sh start recoursemanager
在每个节点上从节点上使⽤指令启动Yarn nodemanager进程:
yarn-daemon.sh start nodemanager
在规划节点Hadoop02使⽤指令启动SecondaryNameNode:
hadoop-daemon.sh start secondarynamenode
脚本⼀键启动和关闭:
在主节点Hadoop上使⽤指令启动所有HDFS服务进程:
start-dfs.sh
在主节点Hadoop01上使⽤指令启动所有Yarn服务进程:
start-yarn.sh
将以上指令start改为stop就为关闭服务命令
2:通过UI查看Hadoop运⾏状态:
在Hadoop集开放后默认开放了端⼝:
50070:监控HDFS集主要为:namenode
8088:监控Yarn集
3:Hadoop集配置⽂件:
配置集主节点:
修改hadoop-env.sh⽂件:配置Hadoop运⾏环境下所需的JDK环境变量
修改l⽂件:配置HDFS地址,端⼝号以及临时⽂件(HDFS的主进程NameNode运⾏主机,也就是Hadoop集的主节点,同时配置Hadoop运⾏是所⽣成数据的临时⽬录)
修改l⽂件:配置HDFS上的NameNodo和DataNode量⼤进程。(配置了HDFS数据块的副本数量集备份数量(默认为3),并根据需要设置了SecondaryNameNode所在服务的HTTP协议地址)
修改l⽂件:⽤于指定MapReduce运⾏时的框架
修改l⽂件:配置Yarn运⾏RecourseManager运⾏主机号和NodeManager运⾏时的附属服务需要配置为MapReduce-shuffle才能正常运⾏MapReduce默认程序
修改slaves⽂件。打开该配置⽂件,先删除⾥⾯的内容(默认localhost):记录Hadoop集所有从节点的主机名(HDFS的DataNode和Yarn的NodeManager)
将集主节点的配置⽂件分发到其他⼦节点:
完成Hadoop集主节点hadoop01的配置后,还需要将系统环境配置⽂件、JDK安装⽬录和Hadoop安装⽬录分发到其他⼦节点
hadoop02和hadoop03上,具体指令:
$ scp /etc/profile hadoop02:/etc/profile
hadoop分布式集搭建
$ scp /etc/profile hadoop03:/etc/profile
$ scp -r /export/ hadoop02:/
$ scp -r /export/ hadoop03:/
4:
5:Hadoop安装步骤:
下载安装包
解压安装Hadoop
配置Hadoop环境变量
验证Hadoop环境
6:Hadoop安装⽬录
bin:存放操作Hadoop相关服务的脚本
sbin:存放Hadoop相关管理脚本
etc:存放Hadoop配置⽂件(Hadoop2.X新增l)
include:Hadoop对外编程库头⽂件
lib:hadoop 对外编程动态库和静态库
libexec:Hadoop服务对⽤的shell配置⽂件所在⽬录
shave:Hadoop各个模块编译后的jar包所在的⽬录
src:Hadoop源码包
7:虚拟机安装
过程:
下载安装
创建虚拟机:(操作系统选择—虚拟机命名—处理器配置—虚拟机内存—指定磁盘容量—-创建完成)
虚拟机初始化:(镜像⽂件配置—-磁盘格式化—主机名配置—⽹络配置—-时区配置—系统⽤户名配置—-磁盘格式化)8:虚拟机克隆
完整克隆:是对原始虚拟机的完全独⽴的⼀个复制,它不和虚拟机共享任何资源,可以完全脱离虚拟机独⽴使⽤。
链接克隆:需要和原始虚拟机共享同⼀虚拟磁盘⽂件,不能脱离原始虚拟机独⽴运⾏。但是,采⽤共同磁盘⽂件可以为创建虚拟机的节省时间,同时还节省物理磁盘空间。
完全克隆的虚拟机⽂件相对独⽴并且安全,在实际开发中应⽤⼴泛。
9:
命令:
加载环境变量配置⽂件需要使⽤:
source /etc/profile
格式化HDFS集命令:
hadoop namenode -format
shell命令⽅式:
hadoop fs(适⽤于任何不同⽂件系统,例如本地⽂件系统和HDFS)
hadoop dfs 和 hdfs dfs(都只适⽤于HDFS⽂件系统)
第三章
1:HDFS的读写原理:
HDFS写数据原理:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。