【Hive】Hive元数据库介绍及信息查看
转载@
在安装Hive时,需要在l⽂件中配置元数据相关信息。与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS 上,也就是说hive中的数据库、表、分区等都可以在HDFS到对应的⽂件。这⾥说到的元数据可以理解成hive中⽤于保存数据库、表、分区或者表字段等基本属性,以及这些属性与HDFS⽂件对应关系的⼀个映射。
这些映射关系⽐较常见的⼀个场景是保存在mysql数据库中。接下来会分析hive安装时的⼀些配置信息,以及元数据库中主要表的⽤途。
⼀ hive配置
有关hive的配置都在l⽂件中。
属性描述默认值
javax.jdo.option.ConnectionURL配置元数据的连接URL
javax.jdo.option.ConnectionUserName元数据库连接⽤户名
javax.jdo.option.ConnectionPassword元数据库连接密码
⽐如如下的配置:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://m000:3306/hive</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hiveuser</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hiveuser</value>
<description>password to use against metastore database</description>
</property>
在hive中,默认情况下新建的数据库以及表都位于HDFS的astore.warehouse.dir路径下。如下图分别显⽰了数据库,表,以及表⽂件在HDFS上的⽂件路径
根据javax.jdo.option.ConnectionURL中设置的数据库,以及⽤户名和密码,hive就可以写⼊和读取其元数据信息。
连接元数据库除了配置URL,username,password之外,还有⼀种间接的⽅式。可以在hive客户端A上⽤hive --service metastore启动⼀个metastore服务,然后在另外⼀个hive客户端B的l⽂件中配置astore.uris=thrift://A:9083也可以访问到元数据信息(9083端⼝为默认,可使⽤-p参数⼿动指定)。
⼆元数据库表描述
这⼀节描述hive元数据库中⽐较重要的⼀些表的作⽤,随着后续对hive的使⽤逐渐补充更多的内容。
mysql元数据库hive中的表:
表名作⽤
BUCKETING_COLS存储bucket字段信息,通过SD_ID与其他表关联
CDS表⽰该分区、表存储的字段信息。⼀个字段CD_ID,与SDS表关联
COLUMNS_V2表⽰该分区、表存储的字段信息。存储字段信息,通过CD_ID与其他表关联
DATABASE_PARAMS描述数据库的属性信息
DBS存储hive的database信息
DB_PRIVS描述数据库的权限信息
DELETEME1410257703262空
FUNCS记录⽤户⼦集编写的函数信息,包括函数名、对应类名、创建者信息等
FUNC_RU记录⾃定义函数所在⽂件的路径
GLOBAL_PRIVS全局变量,与表⽆关
IDXS Hive中索引的信息
INDEX_PARAMS空
PARTITIONS分区信息,SD_ID, TBL_ID关联
PARTITION_KEYS存储分区字段列,TBL_ID关联
PARTITION_KEY_VALS分区的值,通过PART_ID关联。与PARTITION_KEYS共⽤同⼀个字段INTEGER_IDX来标⽰不同的分区字段。PARTITION_PARAMS存储某分区相关信息,包括⽂件数,⽂件⼤⼩,记录条数等。通过PART_ID关联
PART_COL_PRIVS分区列的授权信息
PART_COL_STATS分区中列的统计信息
PART_PRIVS空
ROLES⾓⾊表,和GLOBAL_PRIVS配合,与表⽆关
SDS存储输⼊输出format等信息,包括表的format和分区的format。关联字段CD_ID,SERDE_ID
SD_PARAMS空
SEQUENCE_TABLE存储sqeuence相关信息,与表⽆关
SERDES存储序列化反序列化使⽤的类
SERDE_PARAMS序列化反序列化相关配置信息,通过SERDE_ID关联
SKEWED_COL_NAMES保存表、分区由数据倾斜的列信息,包括列名
SKEWED_COL_VALUE_LOC_MAP空
SKEWED_STRING_LIST保存表,分区有数据倾斜的字符串列表和值的信息
SKEWED_STRING_LIST_VALUES保存表,分区有数据倾斜的字符串列表和值的信息
SKEWED_VALUES保存表、分区倾斜列对应的本地⽂件路径
SORT_COLS排序字段,包括列名和排序⽅式。通过SD_ID关联
TABLE_PARAMS表相关信息,是否外部表,通过TBL_ID关联
TAB_COL_STATS表中列的统计信息,包括数值类型的最⼤和最⼩值
表名作⽤
TBLS存储表信息,关联字段DB_ID,SD_ID,
TBL_COL_PRIVS表或视图中列的授权信息,包括授权⽤户、被授权⽤户和授权的权限等
TBL_PRIVS表赋权限相关信息,通过TBL_ID关联
VERSION版本
VERSION_copy版本,通过VER_ID关联
这⾥补充介绍hive的⼀个⼯具脚本metatool。如果需要⼤量修改元数据库中的相关记录,可以具体查看metatool脚本的使⽤⽅法。 ⽐如说,对⼀个HDFS做HA的时候,如果之前hdfs完整路径是hdfs://m000,做完HA之后把dfs.nameservices设置为my-cluster之后,hdfs的访问路径就变成了hdfs://my-cluster,此时就需要对hive元数据库中所有记录作更新,这时可以参考下⾯的操作,
使⽤metatool脚本,先是新路径,然后是旧路径
/usr/local/bigdata/hive/bin/metatool -updateLocation hdfs://my-cluster hdfs://m00
thrift
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论