java⼤数据之greenplum常见mpp数据库
简介
reenplum简介
⼀、G reenplum
1.1 Greenplum是什么
Greenplum数据库是在postgreSQL开发出来的,基于MPP(massively parallel processing)和shared-Nothing架构(Oracle RAC是shared everything架构)。
主要⽤在数据仓库中,做⼤规模数据和复杂的查询功能所涉及。
1.5 G reenplum总体架构
数据库由Master Severs和Segment Severs通过Interconnect互联组成。
详解
1.6 Greenplum架构
Greenplum架构详解
Master主机与Segment主机的职责
Master
(1)建⽴与客户端的会话连接和管理
(2)SQL的解析并形成分布式的执⾏计划
(3)将⽣成好的执⾏计划分发到每个Segment上执⾏
(4)收集Segment的执⾏结果
(5)不存储业务数据,只存储数据字典
(6)可以⼀主⼀备,分布在两台机器上
(7)为了提⾼性能,最好单独占⽤⼀台机器
Segment
(1)业务数据的存储和存取
(2)执⾏由Master分发的SQL语句
(3)对于Master来说,每个Segment都是对等的,负责对应数据的存储和计算
(4)每⼀台机器上可以配置⼀到多个Segment
(5)由于每个Segment都是对等的,建议蚕蛹相同的及其配置
(6)Segment分primary和mirror两种,⼀般交错的存放在⼦节点上
Master和Segment都是⼀个单独的PostgreSQL数据库。每⼀个都有⾃⼰单独的⼀套元数据字典。Master节点⼀般也叫主节点,Segment叫做数据节点。
为了实现⾼可⽤,每个Segment都有对应的备节点 Mirror Segment分别存在与不同的机器上。
Client⼀般只能与Master节点进⾏交互,Client将SQL发给Master,然后Master对SQL进⾏分析后再讲其分配给所有的Segment进⾏操作。
丰富特性
reenplum丰富特性
1.7 G reenplum
第⼀,完善的标准⽀持:GPDB完全⽀持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应⽤编程接⼝上讲,它⽀持ODBC和JDBC。完善的标准⽀持使得系统开发、维护和管理都⼤为⽅便。⽽现在的 NoSQL,NewSQL和Hadoop 对 SQL 的⽀持都不完善,不同的系统需要单独开发和管理,且移植性不好。
第⼆,⽀持分布式事务,⽀持ACID。保证数据的强⼀致性。
第三,做为分布式数据库,拥有良好的线性扩展能⼒。在国内外⽤户⽣产环境中,具有上百个物理节点的GPDB集都有很多案例。
第四,GPDB是企业级数据库产品,全球有上千个集在不同客户的⽣产环境运⾏。这些集为全球很多⼤的⾦融、政府、物流、零售等公司的关键业务提供服务。
第五,GPDB是Greenplum(现在的Pivotal)公司⼗多年研发投⼊的结果。GPDB基于PostgreSQL 8.
2,PostgreSQL 8.2有⼤约80万⾏源代码,⽽GPDB现在有130万⾏源码。相⽐PostgreSQL 8.2,增加了约50万⾏的源代码。
第六,Greenplum有很多合作伙伴,GPDB有完善的⽣态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等;也可以很多种开源软件集成,譬如Pentaho,Talend 等。
1.8 G reenplum应⽤场景
Greenplum最⼤的特点总结就⼀句话:基于低成本的开放平台基础上提供强⼤的并⾏数据计算性能和海量数据管理能⼒。这个能⼒主要指的是并⾏计算能⼒,是对⼤任务、复杂任务的快速⾼效计算,但如果你指望MPP并⾏数据库能够像OLTP数据库⼀样,在极短的时间处理⼤量的并发⼩任务,这个并⾮MPP数据库所长。请牢记,并⾏和并发是两个完全不同的概念,MPP数据库是为了解决⼤问题⽽设计的并⾏计算技术,⽽不是⼤量的⼩问题的⾼并发请求。
再通俗点说,Greenplum主要定位在OLAP领域,利⽤Greenplum MPP数据库做⼤数据计算或分析平台⾮常适合,例如:数据仓库系统、ODS系统、ACRM系统、历史数据管理系统、电信流量分析系统、移动信令分析系统、SANDBOX⾃助分析沙箱、数据集市等等。
⽽MPP数据库都不擅长做OLTP交易系统,所谓交易系统,就是⾼频的交易型⼩规模数据插⼊、修改
、删除,每次事务处理的数据量不⼤,但每秒钟都会发⽣⼏⼗次甚⾄⼏百次以上交易型事务 ,这类系统的衡量指标是TPS,适⽤的系统是OLTP数据库或类似Gemfire的内存数据库。
1.9 Greenplum的技术特点及优势
1.10 G reenplum缺点
1、对局域⽹带宽要求很⾼,⼀般都是千兆交换机。
2、不⽀持在线扩容,扩容的话⾄少要增加2台以上的机器。后若不是成2倍扩展,需要重新平均分布所有数据。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论