02_尚硅谷大数据技术之Hadoop(入门)--688IT编程网

02_尚硅⾕⼤数据技术之Hadoop（⼊门）

尚硅⾕⼤数据技术之 Hadoop（⼊门）

（作者：尚硅⾕⼤数据研发部）版本：V3.3

第 1 章 Hadoop 概述

1.1 Hadoop 是什么

1） Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构。

2）主要解决，海量数据的存储和海量数据的分析计算问题。

3）⼴义上来说，Hadoop通常是指⼀个更⼴泛的概念——Hadoop⽣态圈。

1.2 Hadoop 发展历史（了解）

1）Hadoop创始⼈Doug Cutting，为了实现与Google类似的全⽂搜索功能，他在Lucene框架基础上进⾏优化升级，查询引擎和索引引擎。

2）2001年年底Lucene成为Apache基⾦会的⼀个⼦项⽬。

3）对于海量数据的场景，Lucene框架⾯对与Google同样的困难，存储海量数据困难，检索海量速度慢。

4）学习和模仿Google解决这些问题的办法：微型版Nutch。

5）可以说Google是Hadoop的思想之源（Google在⼤数据⽅⾯的三篇论⽂）

GFS --->HDFS

Map-Reduce --->MR

BigTable --->HBase

6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等⼈⽤了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。

7）2005 年Hadoop 作为 Lucene的⼦项⽬ Nutch的⼀部分正式引⼊Apache基⾦会。

8）2006 年 3 ⽉份，Map-Reduce和Nutch Distributed File System （NDFS）分别被纳⼊到 Hadoop 项⽬中，Hadoop就此正式诞⽣，标志着⼤数据时代来临。 9）名字来源于Doug Cutting⼉⼦的玩具⼤象

1.3 Hadoop 三⼤发⾏版本（了解）

Hadoop 三⼤发⾏版本：Apache、Cloudera、Hortonworks。

Apache 版本最原始（最基础）的版本，对于⼊门学习最好。2006

Cloudera 内部集成了很多⼤数据框架，对应产品 CDH。2008

Hortonworks ⽂档较好，对应产品 HDP。2011

Hortonworks 现在已经被Cloudera 公司收购，推出新的品牌 CDP。

1） Apache Hadoop

2） Cloudera Hadoop

（1）2008 年成⽴的 Cloudera 是最早将Hadoop 商⽤的公司，为合作伙伴提供 Hadoop 的商⽤解决⽅案，主要是包括⽀持、咨询服务、培训。

（2）2009 年Hadoop 的创始⼈ Doug Cutting也加盟Cloudera公司。Cloudera 产品主要为CDH，Cloudera Manager，Cloudera Support

（3） CDH 是 Cloudera 的 Hadoop 发⾏版，完全开源，⽐ Apache Hadoop 在兼容性，安全性，稳定性上有所增强。Cloudera 的标价为每年每个节点 10000 美元。

（4） Cloudera Manager 是集的软件分发及管理监控平台，可以在⼏个⼩时内部署好⼀个 Hadoop 集，并对集的节点及服务进⾏实时监控。

3） Hortonworks Hadoop

（1）2011 年成⽴的 Hortonworks 是雅虎与硅⾕风投公司Benchmark Capital 合资组建。

（2）公司成⽴之初就吸纳了⼤约 25 名⾄ 30 名专门研究 Hadoop 的雅虎⼯程师，上述⼯程师均在 2005 年开始协助雅虎开发 Hadoop，贡献了 Hadoop80%的代码。

（3）Hortonworks 的主打产品是Hortonworks Data Platform（HDP），也同样是 100%开源的产品，HDP 除常见的项⽬外还包括了 Ambari，⼀款开源的安装和管理系统。

（4）2018 年Hortonworks ⽬前已经被 Cloudera 公司收购。

1.4 Hadoop 优势（4 ⾼）

1）⾼可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

2）⾼扩展性：在集间分配任务数据，可⽅便的扩展数以千计的节点。

3）⾼效性：在MapReduce的思想下，Hadoop是并⾏⼯作的，以加快任务处理速度。

4）⾼容错性：能够⾃动将失败的任务重新分配。

1.5 Hadoop 组成（⾯试重点）

在 Hadoop1.x 时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较⼤。

在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce 只负责运算。Hadoop3.x在组成上没有变化。

1.5.1 HDFS 架构概述

Hadoop Distributed File System，简称 HDFS，是⼀个分布式⽂件系统。

1）NameNode（nn）：存储⽂件的元数据，如⽂件名，⽂件⽬录结构，⽂件属性（⽣成时间、副本数、⽂件权限），以及每个⽂件的块列表和块所在的DataNode等。

2）DataNode(dn)：在本地⽂件系统存储⽂件块数据，以及块数据的校验和。

3）Secondary NameNode(2nn)：每隔⼀段时间对NameNode元数据备份。

1.5.2 YARN 架构概述

Yet Another Resource Negotiator 简称 YARN ，另⼀种资源协调者，是 Hadoop 的资源管理器。

1.5.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段：Map 和Reduce

1） Map 阶段并⾏处理输⼊数据

2） Reduce 阶段对 Map 结果进⾏汇总

1.5.4 HDFS、YARN、MapReduce 三者关系

1.6 ⼤数据技术⽣态体系

图中涉及的技术名词解释如下：

1） Sqoop：Sqoop 是⼀款开源的⼯具，主要⽤于在 Hadoop、Hive 与传统的数据库（MySQL）间进⾏数据的传递，可以将⼀个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到 Hadoop 的HDFS 中，也可以将HDFS 的数据导进到关系型数据库中。

2） Flume：Flume 是⼀个⾼可⽤的，⾼可靠的，分布式的海量⽇志采集、聚合和传输的系统，Flume ⽀持在⽇志系统中定制各类数据发送⽅，⽤于收集数据；

3） Kafka：Kafka 是⼀种⾼吞吐量的分布式发布订阅消息系统；

4） Spark：Spark 是当前最流⾏的开源⼤数据内存计算框架。可以基于 Hadoop 上存储的⼤数据进⾏计算。

5） Flink：Flink 是当前最流⾏的开源⼤数据内存计算框架。⽤于实时计算的场景较多。6）Oozie：Oozie 是⼀个管理 Hadoop 作业（job）的⼯作流程调度管理系统。7）Hbase：HBase 是⼀个分布式的、⾯向列的开源数据库。HBase 不同于⼀般的关系数据库，它是⼀个适合于⾮结构化数据存储的数据库。

8） Hive：Hive 是基于 Hadoop 的⼀个数据仓库⼯具，可以将结构化的数据⽂件映射为⼀张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进⾏运⾏。其优点是学习成本

低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应⽤，⼗分适合数据仓库的统计分析。

9） ZooKeeper：它是⼀个针对⼤型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

1.7 推荐系统框架图

第 2 章 Hadoop 运⾏环境搭建（开发重点）

2.1 模板虚拟机环境准备

0）安装模板虚拟机，IP地址 192.168.10.100、主机名称hadoop100、内存 4G、硬盘 50G

1） hadoop100 虚拟机配置要求如下（本⽂ Linux 系统全部以 CentOS-7.5-x86-1804 为例）

（1）使⽤ yum 安装需要虚拟机可以正常上⽹，yum 安装前可以先测试下虚拟机联⽹情况

[root@hadoop100 ~]# ping www.baidu

PING www.baidu (14.215.177.39) 56(84) bytes of data.

64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1

ttl=128 time=8.60 ms

64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2

ttl=128 time=7.72 ms

（2）安装 epel-release

注：Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包，适⽤于 RHEL、CentOS 和 Scientific Linux。相当于是⼀个软件仓库，⼤多数 rpm 包在官⽅repository 中是不到的）

[root@hadoop100 ~]# yum install -y epel-release

（3）注意：如果Linux 安装的是最⼩系统版，还需要安装如下⼯具；如果安装的是 Linux桌⾯标准版，不需要执⾏如下操作

net-tool：⼯具包集合，包含 ifconfig 等命令

[root@hadoop100 ~]# yum install -y net-tools

vim：编辑器

[root@hadoop100 ~]# yum install -y vim

2）关闭防⽕墙，关闭防⽕墙开机⾃启

注意：在企业开发时，通常单个服务器的防⽕墙时关闭的。公司整体对外会设置⾮常安全的防⽕墙

[root@hadoop100 ~]# systemctl stop firewalld

[root@hadoop100 ~]# systemctl disable firewalld.service

3）创建 atguigu ⽤户，并修改 atguigu ⽤户的密码

[root@hadoop100 ~]# useradd atguigu

[root@hadoop100 ~]# passwd atguigu

4）配置 atguigu ⽤户具有 root 权限，⽅便后期加 sudo 执⾏ root 权限的命令

[root@hadoop100 ~]# vim /etc/sudoers

修改/etc/sudoers ⽂件，在%wheel 这⾏下⾯添加⼀⾏，如下所⽰：

## Allow root to run any commands anywhere

root ALL=(ALL) ALL

## Allows people in group wheel to run all commands

%wheel ALL=(ALL) ALL

atguigu ALL=(ALL) NOPASSWD:ALL

注意：atguigu 这⼀⾏不要直接放到 root ⾏下⾯，因为所有⽤户都属于wheel 组，你先配置了 atguigu 具有免密功能，但是程序执⾏到%wheel ⾏时，该功能⼜被覆盖回需要密码。所以 atguigu 要放到%wheel 这⾏下⾯。

5）在/opt ⽬录下创建⽂件夹，并修改所属主和所属组

（1）在/opt ⽬录下创建 module、software ⽂件夹

[root@hadoop100 ~]# mkdir /opt/module

[root@hadoop100 ~]# mkdir /opt/software

（2）修改 module、software ⽂件夹的所有者和所属组均为atguigu ⽤户

[root@hadoop100 ~]# chown atguigu:atguigu /opt/module

[root@hadoop100 ~]# chown atguigu:atguigu /opt/software

（3）查看 module、software ⽂件夹的所有者和所属组

[root@hadoop100 ~]# cd /opt/

[root@hadoop100 opt]# ll

总⽤量 12

drwxr-xr-x. 2 atguigu atguigu 4096 5 ⽉ 28 17:18 modulehadoop安装详细步骤linux

drwxr-xr-x. 2 root root 4096 9 ⽉ 7 2017 rh

drwxr-xr-x. 2 atguigu atguigu 4096 5 ⽉ 28 17:18 software

6）卸载虚拟机⾃带的 JDK

注意：如果你的虚拟机是最⼩化安装不需要执⾏这⼀步。

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e

--nodeps

rpm -qa：查询所安装的所有rpm 软件包

grep -i：忽略⼤⼩写

xargs -n1：表⽰每次只传递⼀个参数

rpm -e –nodeps：强制卸载软件

7）重启虚拟机

[root@hadoop100 ~]# reboot

2.2 克隆虚拟机

1）利⽤模板机 hadoop100，克隆三台虚拟机：hadoop102 hadoop103 hadoop104

注意：克隆时，要先关闭hadoop100

2）修改克隆机 IP，以下以 hadoop102 举例说明

（1）修改克隆虚拟机的静态 IP

[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33

改成

DEVICE=ens33

TYPE=Ethernet

ONBOOT=yes

BOOTPROTO=static

NAME="ens33"

IPADDR=192.168.10.102

PREFIX=24

GATEWAY=192.168.10.2

DNS1=192.168.10.2

（2）查看Linux 虚拟机的虚拟⽹络编辑器，编辑->虚拟⽹络编辑器->VMnet8

（3）查看Windows 系统适配器VMware Network Adapter VMnet8 的 IP 地址

（4）保证 Linux 系统 ifcfg-ens33 ⽂件中 IP 地址、虚拟⽹络编辑器地址和 Windows 系统 VM8 ⽹络 IP 地址相同。3）修改克隆机主机名，以下以 hadoop102 举例说明

（1）修改主机名称

[root@hadoop100 ~]# vim /etc/hostname

hadoop102

（2）配置Linux 克隆机主机名称映射 hosts ⽂件，打开/etc/hosts

[root@hadoop100 ~]# vim /etc/hosts

添加如下内容

192.168.10.100 hadoop100

192.168.10.101 hadoop101

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

192.168.10.105 hadoop105

192.168.10.106 hadoop106

192.168.10.107 hadoop107

192.168.10.108 hadoop108

4）重启克隆机 hadoop102

[root@hadoop100 ~]# reboot

5）修改 windows 的主机映射⽂件（hosts ⽂件）

（1）如果操作系统是window7，可以直接修改

（a）进⼊C:\Windows\System32\drivers\etc 路径

（b）打开hosts ⽂件并添加如下内容，然后保存

192.168.10.100 hadoop100

192.168.10.101 hadoop101

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

192.168.10.105 hadoop105

192.168.10.106 hadoop106

192.168.10.107 hadoop107

192.168.10.108 hadoop108

（2）如果操作系统是window10，先拷贝出来，修改保存以后，再覆盖即可

（a）进⼊C:\Windows\System32\drivers\etc 路径

（b）拷贝hosts ⽂件到桌⾯

（c）打开桌⾯ hosts ⽂件并添加如下内容

192.168.10.100 hadoop100

192.168.10.101 hadoop101

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

192.168.10.105 hadoop105

192.168.10.106 hadoop106

192.168.10.107 hadoop107

192.168.10.108 hadoop108

（d）将桌⾯ hosts ⽂件覆盖 C:\Windows\System32\drivers\etc 路径 hosts ⽂件

2.3 在 hadoop102 安装JDK

1）卸载现有 JDK

注意：安装 JDK 前，⼀定确保提前删除了虚拟机⾃带的 JDK。详细步骤见问⽂档 3.1 节中卸载 JDK 步骤。

2）⽤ XShell 传输⼯具将 JDK 导⼊到 opt ⽬录下⾯的 software ⽂件夹下⾯

3）在 Linux 系统下的 opt ⽬录中查看软件包是否导⼊成功

[atguigu@hadoop102 ~]$ ls /opt/software/

看到如下结果：

4）解压 JDK 到/opt/module ⽬录下

5）配置 JDK 环境变量

（1）新建/etc/profile.d/my_env.sh ⽂件

[atguigu@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_212

export PATH=$PATH:$JAVA_HOME/bin

（2）保存后退出

:wq

（3） source ⼀下/etc/profile ⽂件，让新的环境变量 PATH ⽣效

[atguigu@hadoop102 ~]$ source /etc/profile

6）测试 JDK 是否安装成功

[atguigu@hadoop102 ~]$ java -version

如果能看到以下结果，则代表 Java 安装成功。

java version "1.8.0_212"

注意：重启（如果 java -version 可以⽤就不⽤重启）

[atguigu@hadoop102 ~]$ sudo reboot

2.4 在 hadoop102 安装Hadoop

1）⽤ XShell ⽂件传输⼯具将 hadoop-3.1. 导⼊到 opt ⽬录下⾯的 software ⽂件夹下⾯

2）进⼊到 Hadoop 安装包路径下

[atguigu@hadoop102 ~]$ cd /opt/software/

3）解压安装⽂件到/opt/module 下⾯

[atguigu@hadoop102 software]$ tar -zxvf hadoop-3.1. -C /opt/module/

4）查看是否解压成功

[atguigu@hadoop102 software]$ ls /opt/module/

hadoop-3.1.3

5）将 Hadoop 添加到环境变量

（1）获取Hadoop 安装路径

[atguigu@hadoop102 hadoop-3.1.3]$ pwd

/opt/module/hadoop-3.1.3

（2）打开/etc/profile.d/my_env.sh ⽂件

[atguigu@hadoop102 hadoop-3.1.3]$ sudo vim /etc/profile.d/my_env.sh

688IT编程网

02_尚硅谷大数据技术之Hadoop(入门)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

02_尚硅谷大数据技术之Hadoop(入门)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则