hadoop分布式集搭建
Hive零基础从⼊门到实战⼊门篇(⼀)环境搭建
⽬录
前⾔
作为⼀个数据分析师,操作Hive提取数据已经成为了⼀个必备技能,但对数据分析师来说,查询才是做的最多的操作,毕竟使⽤⼯具是为了完成分析。所以我认为数据分析师是不需要掌握Hive具体的底层架构、安装运维、甚⾄是运⾏原理等知识的,毕竟我们不是运维也不是⼤数据开发⼯程师,实际⼯作中也确实⽤不到这些知识,所以我总结的知识点主要以数据分析从零基础⼊门操作到实战为主,同时我会提供安装好Hive的虚拟机供⼤家下载,避免⼤家从安装到放弃。
1.Hive是什么
Hive是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表。
Hive 定义了简单的类 SQL 查询语⾔,称为 HQL,它允许熟悉 SQL 的⽤户查询数据。
在互联⽹公司实际⽣产中,Hive⽤于离线计算,因为Hive有较⾼的延迟并且在作业提交和调度的时候需要⼤量的开销。因此,Hive并不能够在⼤规模数据集上实现低延迟快速的查询,例如,Hive 在⼏百MB 的数据集上执⾏查询⼀般有分钟级的时间延迟。
Hive的最佳使⽤场合是⼤数据集的批处理作业。在互联⽹公司,每个⽤户在其app、web⽹页上的所有⾏为都会上报到⽇志中,即便是⼀个⽇活跃⽤户数只有10万的APP,每⽇产⽣的⽇志⾏数也是千万级的,⽽类似这种⽇活就有10亿⽤户的APP,其每⽇产⽣的数据量更是天⽂数字。
如果想要对这些数据进⾏分析、挖掘,现阶段互联⽹⾏业内使⽤最⼴泛的就是Hive。
2.学习环境搭建
准备⼀台内存8G,单⼀磁盘剩余空间60G以上的电脑,下载以下百度⽹盘链接内容。
包括:
1.vmware安装包
2.安装好HIve的linux虚拟机配置⽂件
3.linux系统所⽤的ISO镜像
4.远程连接虚拟机的Xshell
5.编辑HQL的notepad安装包
具体安装配置教程如下:
1.安装VMware虚拟机,⼀路next即可,安装运⾏后点击打开虚拟机:
2.解压⽹盘中下载的Red Hat Enterprise 6.5 x86_64.rar,选择hadoop.vmx
3.选择⽹盘中下载的镜像⽂件:Red Hat Enterprise 6.5 x86_6
4.iso
4.如图配置⽹卡,选择VMnet1进⾏配置,其余不⽤修改
⼀定要将⼦⽹ip改为192.168.16.0
5.开启虚拟机,点击other,⽤户名:root,密码:oracle

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。