初学Hadoop⼼得
Hadoop认识总结
对Hadoop的基本认识
Hadoop是⼀个分布式系统基础技术框架,由Apache基⾦会所开发。利⽤hadoop,软件开发⽤户可以在不了解分布式底层细节的情况下,开发分布式程序,从⽽达到充分利⽤集的威⼒⾼速运算和存储的⽬的。
Hadoop是根据google的三⼤论⽂作为基础⽽研发的,google 的三⼤论⽂分别是: MapReduce、 GFS和BigTable。因此,hadoop 也因此被称为是:
google技术的⼭寨版。不过这种“⼭寨版”却成了当下⼤数据处理技术的国际标准(因为它是世界上唯⼀个做得相对完善⽽⼜开源的框架)。Hadoop框架中最核⼼的设计就是: MapReduce 和HDFS。MapReduce 的思想是由Google的⼀篇论⽂所提及⽽被⼴为流传的,简单的⼀句话解释
MapReduce就是“ 任务的分解与结果的汇总”。HDFS是Hadoop分布式⽂件系统(Hadoop Distributed File System) 的缩写,为分布式计算存储提供了底层⽀持。
MapReduce从它名字上来看就⼤致可以看出个缘由,两个动词Map和Reduce,“Map (展开)”就是将⼀个任务 分解成为多个任
务,“Reduce” 就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思想,其实它的本质就是⼀种“分治法”的思想,把⼀个巨⼤的任务分割成许许多多的⼩任务单元,最后再将每个⼩任务单元的结果汇总,并求得最终结果。在分布式系统中,机器集就可以看作硬件资源池,将并⾏的任务拆分,然后交由每⼀个空闲机器资源去处理,能够极⼤地提⾼计算效率,同时这种资源⽆关性,对于计算集的扩展⽆疑提供了最好的设计保证。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的⼯作。
总之,⽤户利⽤Hadoop可以轻松的组织计算机资源,搭建⾃⼰的分布式计算平台,充分利⽤集的计算和存储能⼒,完成海量数据的处理。
Hadoop安装过程
搭建Linux环境:
1)在Vmware 虚拟机中安装rhel-server-6.3-i386-dvd.iso
2)设置Vmware虚拟机的⽹络⽅式为bridge(桥接)
Hadoop伪分布模式安装步骤:
1)关闭防⽕墙:
查看Linux系统防⽕墙状态:
命令:Service iptables status
关闭防⽕墙
命令:service iptables stop
关闭防⽕墙的⾃动运⾏
命令:chkconfig iptables off
2)修改IP:
设置Linux系统静态IP地址
因为虚拟机⽹络采⽤bridge桥接⽅式,客户机和宿主机在同⼀个局域⽹中,因此按如下⽅式设置客户操作系统的IP地址:
客户操作系统的IP地址和主操作系统在同⼀⽹段
客户操作系统的⽹关和主操作系统⼀致
客户操作系统的DNS和主操作系统⼀致
设置完毕执⾏命令:service network restart重启Linux系统⽹络。
验证:使⽤ifconfig命令查看设置是否成功
hadoop分布式集搭建3)修改HOSTNAME:
修改当前会话中的主机名(暂时性):
命令:hostname hadoop
修改配置⽂件中的主机名(永久性):
vi /etc/sysconfig/network
HOSTNAME=hadoop
4)设置ssh⾃动登录:
执⾏以下命令产⽣密钥,位于~/.ssh⽬录
ssh-keygen –t rsa
ssh-keygen –t rsa
执⾏以下拷贝命令,创建密钥⽂件authorized_keys
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
验证:
执⾏命令:ssh localhost 登录主机
执⾏命令:exit 退出连接
5)安装jdk:
使⽤winscp将jdk安装⽂件从windows拷贝到Linux的/usr/local⽬录下
给jdk⽂件赋予⽤户的可执⾏权限:
chmod u+x jdk⽂件
解压缩jdk⽂件
./jdk⽂件
为以后使⽤⽅便,将解压后的⽂件夹重命名为jdk
mv 旧⽂件名 jdk
设置环境变量:
vi /etc/profile #编辑此⽂件,增加2⾏内容
export JAVA_HOME=/usr/local/jdk
export PATH=.:$JAVA_HOME/bin:$PATH
执⾏以下命令,使设置⽴即⽣效
source /etc/profile
验证:
java -version
6)安装hadoop
1.使⽤winscp将hadoop安装包拷贝/usr/local⽬录下,然后进⼊此⽬录解压缩hadoop安装⽂件tar zxvf hadoop-
2.6.
2.设置环境变量:
vi /etc/profile #编辑此⽂件,增加2⾏内容
export HADOOP_HOME=/usr/local/hadoop-2.6.2
export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
执⾏以下命令,使设置⽴即⽣效
source /etc/profile
3.修改hadoop的配置⽂件:配置⽂件路径:/usr/local/hadoop-2.6.2/etc/hadoop/ ⽬录下⽂件,配置jdk的路径
export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)
⽂件,配置jdk的路径
export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)
修改 l,添加以下内容,配置HDFS的地址和端⼝号
<configuration>
<property>
<name>fs.defaultFS
<value>hdfs://hadoop0:9000
</property>
<property>
<name&p.dir
<value>/usr/local/hadoop-2.6.2/tmp
</property>
</configuration>
4.修改hadoop的配置⽂件:
修改 l⽂件,修改block副本数:replication
<configuration>
<property>
<name&plication
<value>1
</property>
</configuration>
修改l,配置使⽤yarn框架
修改l,配置使⽤yarn框架
先创建l:
执⾏命令:l.l
在进⾏下⾯的配置:
<configuration>
<property>
<name>
<value>yarn
</property>
</configuration>
修改l,配置yarn属性及端⼝
<configuration>
<property>
<name&demanager.aux-services
<value>mapreduce_shuffle
</property>
<property>
<name&sourcemanager.address
<value>hadoop0:9001
</property>
Hadoop的配置及启动
1)格式化hdfs:
hadoop namenode –format
启动/关闭所有进程:
启动/关闭hdfs:
启动/关闭yarn
2)验证hadoop安装是否成功:
1.执⾏命令jps查看java进程,是否启动了以下5个进程:
NameNode,SecondaryNamenode,DataNode、ResourceManager、NodeManager 以上5个进程运⾏在主节点的有:
NameNode,SecondaryNamenode ,ResourceManager
运⾏在从节点的有:
DataNode、NodeManager
2.通过浏览器访问hadoop
在浏览器分别输⼊以下地址进⾏访问:
hadoop(主机名):50070
Hadoop(主机名):50030
⾄此安装配置完成!
分布式⽂件系统HDFS命令
HDFS操作命令帮助:
所有的hdfs命令都是以hadoop fs开头
HDFS的shell命令在线帮助
1.hadoop fs
使⽤此命令可以查看HDFS的所有常⽤命令语法
2.hadoop fs help
使⽤此命令可以查看HDFS的所有常⽤命令语法
3. hadoop fs –help 命令
查看某个命令的具体功能
HDFS的fs命令
-help [cmd] //显⽰命令的帮助信息
-ls( r) <path> //显⽰当前⽬录下所有⽂件
-du(s) <path> //显⽰⽬录中所有⽂件⼤⼩
-count[-q] <path> //显⽰⽬录中⽂件数量
-mv <src> <dst> //移动多个⽂件到⽬标⽬录
-
cp <src> <dst> //复制多个⽂件到⽬标⽬录
-rm(r ) //删除⽂件(夹)
-put <localsrc> <dst> //本地⽂件复制到hdfs
-copyFromLocal //同put
-moveFromLocal //从本地⽂件移动到hdfs
-get [-ignoreCrc] <src> <localdst> //复制⽂件到本地,可以忽略crc校验
-getmerge <src> <localdst> //将源⽬录中的所有⽂件排序合并到⼀个⽂件中
-cat <src> //在终端显⽰⽂件内容
-text <src> //在终端显⽰⽂件内容
-copyToLocal [-ignoreCrc] <src> <localdst> //复制到本地
-moveToLocal <src> <localdst>
-
mkdir <path> //创建⽂件夹
-touchz <path> //创建⼀个空⽂件
课堂笔记
第⼀章Hadoop最初的两个核⼼项⽬
Hdfs 分布式⽂件系统(强调⼀下是⼀个⽂件系统)
守护进程:namenode(主节点,名称节点,只有⼀个) datanode(从节点,数据节点,可能有若⼲个)
Mapreduce 并⾏计算框架
守护进程:jobtracker(主节点,只有⼀个) tasktracker(从节点,可能有若⼲个)(hadoop1.x的内容,后⾯会进⾏更新)特点:可靠性、低成本、⾼效率、扩容能⼒
第⼆章 hadoop安装配置(上)
第⼀节 基础环境配置
前置(可选)普通⽤户获取部分管理员权限
操作步骤:
登陆虚拟控制台ctrl+alt+f2
登录管理员⽤户和密码
打开sudoers⽂件 $vim /etc/sudoers
到第98⾏ root ALL=(ALL) ALL
将其复制,并更改为ryan(你的⽤户名) ALL=(ALL) ALL
保存退出:按esc,输⼊:wq
到这⼀步,ryan⽤户就获取了所有的管理员权限,执⾏管理员命令时,需要在前⾯加上sudo命令。
1.1基础⽹络配置
⽹络联通配置
1) 打开⽹络配置⽂件 sudo vim /etc/sysconfig/network-scripts/ifcfg-eno176……
输⼊密码
在此⽂件中更改以下内容
BOOTPROTO=static
ONBOOT=yes
在此⽂件中添加以下内容
IPADDR=192.168.237.10
NETMASK=255.255.255.0
GATEWAY=192.168.237.2
DNS1=8.8.8.8
2) 重启⽹络
service network restart
3) 测试
ping 8.8.8.8
第⼆章 hadoop安装配置(下)
主机名与IP地址对应关系操作
1.设置主机名
sudo vim /etc/hostname
删除原有内容,添加⾃⼰的主机名
2. 设置主机名与IP地址的对应关系
sudo vim /etc/hosts
此⽂件在最后添加对应关系如下
IP地址1 主机名1
IP地址2 主机名2
。。。
3. 关闭防⽕墙
systemctl stop firewalld
设置防⽕墙开机不启动
systemctl start firewalld
设置防⽕墙打开
systemctl status firewalld
查看防⽕墙

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。