银河麒麟服务器操作系统HBase软件适配手册
hbase的特性有哪些
KYLIN
银河麒麟服务器操作系统V4 HBase 软件适配手册
目录
目录................................... I
1 概述. (2)
1.1 系统概述 (2)
1.2 环境概述 (2)
1.3 HBASE 软件简介 (2)
1.4 HBASE 体系架构 (2)
1) CLIENT (3)
2) ZOOKEEPER (3)
3) MASTER (3)
4) REGIONSERVER (3)
5) HLOG(WAL LOG) (3)
6) REGION (4)
7) MEMSTORE 与STOREFILE (4)
2 HBASE 软件适配 (4)
2.1 下载HBASE (4)
2.2 配置文件修改 (4)
2.2.1 配置环境变量 (4)
2.2.2 修改HBASE-ENV.SH (5)
2.2.3 配置HBASE-SITE.XML (5)
2.2.4 启动HBASE (5)
3 HBASE 常用操作 (5)
1) 进入HBASE SHELL (5)
2) 创建表 (5)
3) 查看表详情 (5)
4) 显示所有的表 (6)
5) 插入数据 (6)
6) 查询数据 (6)
7) 删除表 (6)
8) 退出HBASE (6)
银河麒麟服务器操作系统V4 HBase 软件适配手册
1 概述
1.1 系统概述
银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系
统等国家关键行业的服务器应用领域,突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势,针对关键业务构建的丰富高效、安全可靠的功能特性,兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产品,以及达梦、金仓、神通、南大通用等主要国产数据库和中创、金蝶、东方通等国产中间件,满足虚拟化、云计算和大数据时代,服务器业务对操作系统在性能、安全性及可
扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统  1.2 环境概述
1.3 HBase 软件简介
HBase 是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang 所撰写的Google 论文“ Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable 利用了Google 文件系统( File System)所提供的分布式数据存储一样,HBase 在Hadoop 之上提供了类似于Bigtable 的能力。HBase 是Apache 的Hadoop 项目的子项目。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase 基于列的而不是基于行的模式。HBase 具有如下特别:
高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库
利用Hadoop HDFS 作为其文件存储系统,利用Hadoop MapReduce 来处理
HBase 中的海量数据,利用Zookeeper 作为其分布式协同服务主要用来存储
非结构化和半结构化的松散数据(列存NoSQL 数据库)
1.4 HBase 体系架构
HBase 体系架构如下图所示:
1) Client
包含访问HBase 的接口并维护cache 来加快对HBase 的访问
2) Zookeeper
保证任何时候,集中只有一个master
存贮所有Region 的寻址入口。
实时监控Region server 的上线和下线信息。并实时通知Master
存储HBase 的schema 和table 元数据
3) Master
为Region server 分配region
负责Region server 的负载均衡
发现失效的Region server 并重新分配其上的region
管理用户对table 的增删改操作
4) RegionServer
Region server 维护region ,处理对这些region 的IO 请求
Region server 负责切分在运行过程中变得过大的region
5) HLog(WAL log)
HLog 文件就是一个普通的Hadoop Sequence File ,Sequence File 的Key 是HLogKey 对象,HLogKey 中记录了写入数据的归属信息,除了table 和
region 名字外,同时还包括sequence number 和timestamp ,timestamp 是”
写入时间”,sequence number 的起始值为0,或者是最近一次存入文
件系统中sequence numbe。r
HLog SequeceFile 的Value 是HBase 的KeyValue 对象,即对应HFile 中的
KeyValue。
6) Region
HBase 自动把表水平划分成多个区域(region) ,每个region 会保存一个表里
面某段连续的数据;每个表一开始只有一个region ,随着数据不断插入
表,region 不断增大,当增大到一个阀值的时候,region 就会等分会两个
新的region (裂变);
当table 中的行不断增多,就会有越来越多的region 。这样一张完整的表被
保存在多个Regionserver 上。
7) Memstore 与storefile
一个region 由多个store 组成,一个store 对应一个CF(列族)。store 包括
位于内存中的memstore 和位于磁盘的storefile 写操作先写入memstore,当
memstore 中的数据达到某个阈值,hregionserver 会启动flashcache 进程写入
storefile,每次写入形成单独的一个storefile。
当storefile 文件的数量增长到一定阈值后,系统会进行合并( minor 、major
compaction),在合并过程中会进行版本合并和删除工作(majar),形成更
大的storefile。
当一个region 所有storefile 的大小和超过一定阈值后,会把当前的region 分
割为两个,并由hmaster 分配到相应的regionserver 服务器,实现负载均
衡。
客户端检索数据,先在memstore ,不到再storefile 。
HRegion 是HBase 中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion 可以分布在不同的HRegion server 上。
HRegion 由一个或者多个Store 组成,每个store 保存一个columns family 。
每个Strore 又由一个memStore 和0 至多个StoreFile 组成。
2 HBase 软件适配
2.1 下载HBase
2.2.1 配置环境变量
银河麒麟服务器操作系统V4 HBase 软件适配手册

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。