Hadoop 集搭建(⼋:Hive 的安装配置)
实验
⽬的
要求
⽬的:
(1)掌握数据仓库⼯具Hive的安装和配置;
要求:
1. 完成Hive⼯具的安装和配置;
2. Hive⼯具能够正常启动运⾏;
3. Hive控制台命令能够正常使⽤;
4. 能够正常操作数据库、表、数据;
1. 五台独⽴PC式虚拟机;
2. 主机之间有有效的⽹络连接;
3. 每台主机内存2G以上,磁盘50G;
4. 所有主机上安装CentOS7-64位操作系统;
5. 所有主机已完成静态⽹络地址、主机名、主机地址映射的配置;
6. 已完成Hadoop平台的搭建;
7. 已完成MySQL数据库平台的搭建;
软件版本:        选⽤Hive的2.1.1版本,软件包名apache-hive-2.1.; 依赖软件:        *Hive⼯具使⽤JDBC⽅式连接MySQL数据库,需要⽤到MySQL数据库连接⼯具软件,选⽤该软件的5.1.42版本,软件包名mysql-connector-java-5.1.42-bin.jar;
实验内容
步骤⼀:Hive ⼯具安装配置
★ Hive安装过程的所有操作步骤都需要使⽤admin⽤户进⾏。
★本项步骤只在集中Cluster-01主机上进⾏操作即可。
1、把相关软件包apache-hive-2.1.和mysql-connector-java-5.1.42-bin.jar上传到admin⽤户家⽬录的新建“setups”⽬
录下;
2、创建⽤于存放Hive相关⽂件的⽬录,并进⼊该⽬录,创建Hive的本地临时⽂件⽬录“tmp”,并将软件包解压解包到“hive”⽬录下;          命令:
$mkdir ~/hive
$cd ~/hive
$mkdir tmp
$tar -xzf ~/setups/apache-hive-2.1.
3、配置Hive相关的环境变量,给配置⽂件进⾏修改,并在⽂件末尾添加以下内容;
命令:
$vi ~/.bash_profile
写⼊内容:
#hive environment
HIVE_HOME=/home/admin/hive/apache-hive-2.1.1-bin
PATH=$HIVE_HOME/bin:$PATH
export HIVE_HOME PATH
4、⽣效环境变量,并查看验证;
命令:
$source ~/.bash_profile
$echo $HIVE_HOME
$echo $PATH
5、进⼊Hive的配置⽂件⽬录,Hive的配置⽂件默认都被命名为了模板⽂件,需要对其进⾏拷贝重命名之后才能使⽤:      命令:
$ cp plate hive-env.sh
$ cp plate  hive-log4j2.properties
$ cp plate hive-exec-log4j2.properties
$ l.l
6、对配置⽂件进⾏修改,到相关配置项并对其值进⾏修改;
6.1、到配置项“HADOOP_HOME”,该项⽤于指定Hadoop所在的路径,将其值改为以下内容:
HADOOP_HOME=/home/admin/hadoop/hadoop-2.7.3
6.2、到配置项“HIVE_CONF_DIR”,该项⽤于指定Hive的配置⽂件所在的路径,将其值改为以下内容:
export
HIVE_CONF_DIR=/home/admin/hive/apache-hive-2.1.1-bin/conf
6.3、到配置项“HIVE_AUX_JARS_PATH”,该项⽤于指定Hive的lib⽂件所在的路径,将其值改为以下内容:
export HIVE_AUX_JARS_PATH=/home/admin/hive/apache-hive-2.1.1-bin/lib
7、集的启动;
★ 该项的所有操作步骤使⽤专门⽤于集的⽤户admin进⾏。
★ 启动HBase集之前⾸先确保Zookeeper集已被开启状态。(实验5台),Zookeeper的启动需要分别在每个计算机的节点上⼿动启动。如果家⽬录下执⾏启动报错,则需要进⼊zookeeper/bin⽬录执⾏启动命令。
★ 启动HBase集之前⾸先确保Hadoop集已被开启状态。 (实验5台)Hadoop只需要在主节点执⾏启动命令。
a) 在集中所有主机上使⽤命令“zkServer.sh status”查看该节点Zookeeper服务当前的状态,若集中只有⼀个“leader”节点,其余的均为“follower”节点,则集的⼯作状态正常。如果Zookeeper未启动,则在集中所有主机上使⽤命令“zkServer.sh start”启动Zookeeper服务的脚本;
b) 在主节点,查看Java进程信息,若有名为“NameNode”、“ResourceManager”的两个进程,则表⽰Hadoop集的主节点启动成功。在每台数据节点,若有名为“DataNode”和“NodeManager”的两个进程,则表⽰Hadoop集的数据节点启动成功, 如果不存在以上三个进程,则在主节点使⽤此命令,启动Hadoop集。
主节点及备⽤主节点:
通信节点:
c) 确定Hadoop集已启动状态,然后在主节点使⽤此命令,启动HBase集, 在集中所有主机上使⽤命令“jps”;
8、在HDFS中分别创建Hive的临时⽂件⽬录“tmp”,在HDFS中分别创建Hive的数据存储⽬录“warehouse”,在HDFS中分别创建Hive的⽇志⽂件⽬录“log”,添加三个⽬录的⽤户组写权限;
命令:
$ hadoop fs -mkdir -p /user/hive/tmp
$ hadoop fs -mkdir -p /user/hive/warehouse
$ hadoop fs -mkdir -p /user/hive/log
$ hadoop fs -chmod 777 /user/hive/tmp
mysql配置与安装过程
$ hadoop fs -chmod 777 /user/hive/warehouse
$ hadoop fs -chmod 777 /user/hive/log
9、对配置⽂件l进⾏修改
到下列标签“<name>”所标识的属性项名称所在位置,修改其标签“<value>”所标识的属性值部分的内容:<configuration>
<!-- 指定Hive的数据临时⽂件存储⽬录,需要是位于HDFS上的⽬录 -->
<property>
<name&scratchdir</name>
<value>/user/hive/tmp</value>
</property>
<!-- 指定Hive的数据存储⽬录,需要是位于HDFS上的⽬录 -->
<property>
<name&astore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<!-- 指定Hive的⽇志⽂件⽬录,需要是位于HDFS上的⽬录--><property>
<name>hive.querylog.location</name>
<value>/user/hive/log</value>
<description>Location of Hive run time structured log file</description>
</property>
</configuration>

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。