菜鸟先飞之初识Hive、安装教程及常见问题
⼀、初识Hive
1、什么是Hive?
Hive是基于Haddop的数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表并提供SQL查询功能,可以将SQL语句转换MapReduce任务运⾏。
Hive提供了⼀系列的⼯具,可以给⽤来数据提取转换加载(ETL)是⼀种存储、查询和分析存储在Hadoop中的⼤规模数据的机制
2、Hive发展历史及版本
2007年8⽉ – 始于Facebook
2013年5⽉ – 0.11 Stinger Phase 1 ORC HiveServer2
2013年10⽉ – 0.12.0 Stinger Phase 2 - ORC improvement
2014年4⽉ – Hive 0.13.0 as Stinger Phase 3
2014年11⽉ – Hive 0.14.0
递归算法的缺点2015年2⽉ – Hive 1.0.0
2015年5⽉ – Hive 1.2.0 (1.2.1 本系列课实验重点版本 )
2016年2⽉ – Hive 2.0.0 (添加 HPLSQL, LLAP)
2016年6⽉ – Hive 2.1.0 (2.1.0 本系列课实验补充版本 )
3、为什么要使⽤Hive
提供了⼀个简单的优化模型
HQL类SQL语法,简化MR开发
⽀持在不同的计算框架上运⾏
⽀持在HDFS和HBase上临时查询数据
⽀持⽤户⾃定义函数、格式
成熟的JDBC和ODBC驱动程序,⽤于ETL和BI
稳定可靠(真实⽣产环境)的批处理
有庞⼤活跃的社区
4、Hive体系架构
Hive的体系结构分以下⼏个部分
聚星源码下载1)⽤户接⼝主要是3个:CLI,Client,HWI(Hive Web Interface)
2)Hive将元数据存储在数据库中,如MySQL、Derby。
3)解释器、编译器、优化器完成HQL查询语句从词法分析、语句分析、编译、优化到查询计划的⽣成。⽣成的查询计划存储在HDFS中,随后由MapReduce调⽤执⾏。
4)Hive的数据存储在HDFS中,⼤部分的查询、计算由MapReduce完成(注意 含*的查询,例如:select * from tbl 不会⽣成MapReduce任务)rowspan跨什么
5、Hive与传统数据库
6、交互模式
javascript和mysql菜鸟教程1)原始数据类型(类似于SQL数据类型)
2)复杂数据类型
* ARRAY:存储的数据为相同类型 * MAP:具有相同类型的键值对
jsp中内置对象有哪些* STRUCT:封装了⼀组字段8、Hive元数据结构
9、Hive数据表
分为内部表和外部表
1) 内部表(管理表)
HDFS中为所属数据库⽬录下的⼦⽂件夹
数据完全由Hive管理,删除表(元数据)会删除数据2)外部表(External Tables)
tcp ip协议的概念数据保存在指定位置的HDFS路径中
Hive不完全管理数据,删除表(元数据)不会删除数据10、Hive建表语句
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论