初学Hadoop心得--688IT编程网

初学Hadoop⼼得

Hadoop认识总结

对Hadoop的基本认识

Hadoop是⼀个分布式系统基础技术框架，由Apache基⾦会所开发。利⽤hadoop，软件开发⽤户可以在不了解分布式底层细节的情况下，开发分布式程序，从⽽达到充分利⽤集的威⼒⾼速运算和存储的⽬的。

Hadoop是根据google的三⼤论⽂作为基础⽽研发的，google 的三⼤论⽂分别是: MapReduce、 GFS和BigTable。因此，hadoop 也因此被称为是:

google技术的⼭寨版。不过这种“⼭寨版”却成了当下⼤数据处理技术的国际标准(因为它是世界上唯⼀个做得相对完善⽽⼜开源的框架)。Hadoop框架中最核⼼的设计就是: MapReduce 和HDFS。MapReduce 的思想是由Google的⼀篇论⽂所提及⽽被⼴为流传的，简单的⼀句话解释

MapReduce就是“ 任务的分解与结果的汇总”。HDFS是Hadoop分布式⽂件系统(Hadoop Distributed File System) 的缩写，为分布式计算存储提供了底层⽀持。

MapReduce从它名字上来看就⼤致可以看出个缘由，两个动词Map和Reduce，“Map (展开)”就是将⼀个任务分解成为多个任

务，“Reduce” 就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。这不是什么新思想，其实它的本质就是⼀种“分治法”的思想，把⼀个巨⼤的任务分割成许许多多的⼩任务单元，最后再将每个⼩任务单元的结果汇总，并求得最终结果。在分布式系统中，机器集就可以看作硬件资源池，将并⾏的任务拆分，然后交由每⼀个空闲机器资源去处理，能够极⼤地提⾼计算效率，同时这种资源⽆关性，对于计算集的扩展⽆疑提供了最好的设计保证。任务分解处理以后，那就需要将处理以后的结果再汇总起来，这就是Reduce要做的⼯作。

总之，⽤户利⽤Hadoop可以轻松的组织计算机资源，搭建⾃⼰的分布式计算平台，充分利⽤集的计算和存储能⼒，完成海量数据的处理。

Hadoop安装过程

搭建Linux环境：

1)在Vmware 虚拟机中安装rhel-server-6.3-i386-dvd.iso

2）设置Vmware虚拟机的⽹络⽅式为bridge（桥接）

Hadoop伪分布模式安装步骤：

1)关闭防⽕墙：

查看Linux系统防⽕墙状态：

命令：Service iptables status

关闭防⽕墙

命令：service iptables stop

关闭防⽕墙的⾃动运⾏

命令：chkconfig iptables off

2)修改IP:

设置Linux系统静态IP地址

因为虚拟机⽹络采⽤bridge桥接⽅式，客户机和宿主机在同⼀个局域⽹中，因此按如下⽅式设置客户操作系统的IP地址：

客户操作系统的IP地址和主操作系统在同⼀⽹段

客户操作系统的⽹关和主操作系统⼀致

客户操作系统的DNS和主操作系统⼀致

设置完毕执⾏命令：service network restart重启Linux系统⽹络。

验证：使⽤ifconfig命令查看设置是否成功

hadoop分布式集搭建3)修改HOSTNAME:

修改当前会话中的主机名(暂时性)：

命令：hostname hadoop

修改配置⽂件中的主机名（永久性）：

vi /etc/sysconfig/network

HOSTNAME=hadoop

4)设置ssh⾃动登录:

执⾏以下命令产⽣密钥，位于~/.ssh⽬录

ssh-keygen –t rsa

执⾏以下拷贝命令，创建密钥⽂件authorized_keys

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

验证：

执⾏命令：ssh localhost 登录主机

执⾏命令：exit 退出连接

5)安装jdk:

使⽤winscp将jdk安装⽂件从windows拷贝到Linux的/usr/local⽬录下

给jdk⽂件赋予⽤户的可执⾏权限：

chmod u+x jdk⽂件

解压缩jdk⽂件

./jdk⽂件

为以后使⽤⽅便，将解压后的⽂件夹重命名为jdk

mv 旧⽂件名 jdk

设置环境变量：

vi /etc/profile #编辑此⽂件，增加2⾏内容

export JAVA_HOME=/usr/local/jdk

export PATH=.:$JAVA_HOME/bin:$PATH

执⾏以下命令，使设置⽴即⽣效

source /etc/profile

验证：

java -version

6)安装hadoop

1.使⽤winscp将hadoop安装包拷贝/usr/local⽬录下，然后进⼊此⽬录解压缩hadoop安装⽂件tar zxvf hadoop-

2.6.

2.设置环境变量：

vi /etc/profile #编辑此⽂件，增加2⾏内容

export HADOOP_HOME=/usr/local/hadoop-2.6.2

export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

执⾏以下命令，使设置⽴即⽣效

source /etc/profile

3.修改hadoop的配置⽂件：配置⽂件路径：/usr/local/hadoop-2.6.2/etc/hadoop/ ⽬录下⽂件，配置jdk的路径

export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)

⽂件，配置jdk的路径

export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)

修改 l，添加以下内容，配置HDFS的地址和端⼝号

<name>fs.defaultFS

<value>hdfs://hadoop0:9000

</property>

<name&p.dir

<value>/usr/local/hadoop-2.6.2/tmp

</property>

</configuration>

4.修改hadoop的配置⽂件：

修改 l⽂件，修改block副本数：replication

<name&plication

<value>1

</property>

</configuration>

修改l，配置使⽤yarn框架

先创建l：

执⾏命令：l.l

在进⾏下⾯的配置：

<name>

<value>yarn

</property>

</configuration>

修改l，配置yarn属性及端⼝

<name&demanager.aux-services

<value>mapreduce_shuffle

</property>

<name&sourcemanager.address

<value>hadoop0:9001

</property>

Hadoop的配置及启动

1)格式化hdfs：

hadoop namenode –format

启动/关闭所有进程：

启动/关闭hdfs：

启动/关闭yarn

2)验证hadoop安装是否成功：

1.执⾏命令jps查看java进程，是否启动了以下5个进程：

NameNode，SecondaryNamenode，DataNode、ResourceManager、NodeManager 以上5个进程运⾏在主节点的有：

NameNode，SecondaryNamenode ，ResourceManager

运⾏在从节点的有：

DataNode、NodeManager

2.通过浏览器访问hadoop

在浏览器分别输⼊以下地址进⾏访问：

hadoop(主机名):50070

Hadoop(主机名):50030

⾄此安装配置完成！

分布式⽂件系统HDFS命令

HDFS操作命令帮助：

所有的hdfs命令都是以hadoop fs开头

HDFS的shell命令在线帮助

1.hadoop fs

使⽤此命令可以查看HDFS的所有常⽤命令语法

2.hadoop fs help

使⽤此命令可以查看HDFS的所有常⽤命令语法

3. hadoop fs –help 命令

查看某个命令的具体功能

HDFS的fs命令

-help [cmd] //显⽰命令的帮助信息

-ls( r) <path> //显⽰当前⽬录下所有⽂件

-du(s) <path> //显⽰⽬录中所有⽂件⼤⼩

-count[-q] <path> //显⽰⽬录中⽂件数量

-mv <src> <dst> //移动多个⽂件到⽬标⽬录

cp <src> <dst> //复制多个⽂件到⽬标⽬录

-rm(r ) //删除⽂件(夹)

-put <localsrc> <dst> //本地⽂件复制到hdfs

-copyFromLocal //同put

-moveFromLocal //从本地⽂件移动到hdfs

-get [-ignoreCrc] <src> <localdst> //复制⽂件到本地，可以忽略crc校验

-getmerge <src> <localdst> //将源⽬录中的所有⽂件排序合并到⼀个⽂件中

-cat <src> //在终端显⽰⽂件内容

-text <src> //在终端显⽰⽂件内容

-copyToLocal [-ignoreCrc] <src> <localdst> //复制到本地

-moveToLocal <src> <localdst>

mkdir <path> //创建⽂件夹

-touchz <path> //创建⼀个空⽂件

课堂笔记

第⼀章Hadoop最初的两个核⼼项⽬

Hdfs 分布式⽂件系统（强调⼀下是⼀个⽂件系统）

守护进程：namenode（主节点，名称节点，只有⼀个） datanode（从节点，数据节点，可能有若⼲个）

Mapreduce 并⾏计算框架

守护进程：jobtracker（主节点，只有⼀个） tasktracker（从节点，可能有若⼲个）（hadoop1.x的内容，后⾯会进⾏更新）特点：可靠性、低成本、⾼效率、扩容能⼒

第⼆章 hadoop安装配置（上）

第⼀节基础环境配置

前置（可选）普通⽤户获取部分管理员权限

操作步骤：

登陆虚拟控制台ctrl+alt+f2

登录管理员⽤户和密码

打开sudoers⽂件 $vim /etc/sudoers

到第98⾏ root ALL=(ALL) ALL

将其复制，并更改为ryan（你的⽤户名） ALL=(ALL) ALL

保存退出：按esc，输⼊：wq

到这⼀步，ryan⽤户就获取了所有的管理员权限，执⾏管理员命令时，需要在前⾯加上sudo命令。

1.1基础⽹络配置

⽹络联通配置

1）打开⽹络配置⽂件 sudo vim /etc/sysconfig/network-scripts/ifcfg-eno176……

输⼊密码

在此⽂件中更改以下内容

BOOTPROTO=static

ONBOOT=yes

在此⽂件中添加以下内容

IPADDR=192.168.237.10

NETMASK=255.255.255.0

GATEWAY=192.168.237.2

DNS1=8.8.8.8

2）重启⽹络

service network restart

3）测试

ping 8.8.8.8

第⼆章 hadoop安装配置（下）

主机名与IP地址对应关系操作

1.设置主机名

sudo vim /etc/hostname

删除原有内容，添加⾃⼰的主机名

2. 设置主机名与IP地址的对应关系

sudo vim /etc/hosts

此⽂件在最后添加对应关系如下

IP地址1 主机名1

IP地址2 主机名2

。。。

3. 关闭防⽕墙

systemctl stop firewalld

设置防⽕墙开机不启动

systemctl start firewalld

设置防⽕墙打开

systemctl status firewalld

查看防⽕墙

688IT编程网

初学Hadoop心得

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

初学Hadoop心得

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式