2015/6/13 22:51 GP架构_1
与GreenPlum类似的产品:
IBM NITIZA(国内没人用)
Terndata
2007年被EMC收购
greenplum数据库GreenPlum国外市场:纳斯达克,skype
GreenPlum国内市场:阿里,民生银行,深发展银行,电信业(MPP架构)
MPP架构:海量并行处理Massively Parallel Processing
share nothing 模式,每一个节点不进行资源共享,集中每个节点有独立的CPU、内存、存储、总线等。
SMP架构:symmetric mass processing 对称多处理系统:耦合的多处理系统,共享总线、内存、IO资源,传统的ORCKLE,DB2是非常典型的产品
ORACLE_RAC 处于半共享状态,各节点连接共享存储,所以不能算MPP
GreenPlum 基于PostGreSQL8.2 之前在国内使用比较少,在国外使用广泛。
Mysql与PostGreSQL地位同等,但mysql被Oracle收购之后没落。
GreenPlum 在函数、dataloading、存储过程等继承了PostGreSQL
GP增加BI和数据仓库的支持:
A、外部表、并行加载(优势明显)
B、资源队列管理的优化,对角、用户、组进行资源优化分配,管理。
C、GP在查询优化器的增强、分布支持、分区表、执行计划的优化、空间回收、数据分析,简化调优,架构时对称、数据分布均匀的话,可以免去调优
Master Host:
访问系统的入口,所有请求都需要从Master Host访问,正常来讲,管理员也不可以直接访问SegmentHost ,系统中只允许直接访问MasterHost ,单独操作SegmentHost 影响一致性和完整性。
数据监听进程(PostGres):监听用户请求。
处理所有用户连接。
建立执行计划,通过网络层分发给SegmentHost。
协调整个处理过程,保证SegmentHost处理结果侧一致和同步。
只存储GP系统自身的数据,MasterHost的数据是很小的,存储架构信息、配置信息。不包含任何用户数据。
Interconnect 网络层:
千兆以太网的架构,各节点之间的连接层,系统内部私有网络配置,支持TCP和UDP TCP:面向连接的协议,三次握手,A请求B,B响应A,A才连接B建立稳定连接,线性扩展有节点的限制,官方1K个节点,实际不能达到。
UDP:(建议使用,连接快,也稳定)QQ聊天,面向非连接的,稳定性较差,效率较高。
Segment Host 数据节点
一些银行使用了60 segmentHost节点,一天的交易数据,分布在不同的SegHost中,分布的逻辑由,我们建立数据仓库的时候指定的,比如:随机的、指定分布键,每个SegmentHost 存储一部分用户数据。
所有请求都来自MasterHost节点,有PostGres监听进程负责
2015/6/13 23:15 GP 架构_2
网络配置示例:
X4200/4500、网口主槽:e1000g0-e1000g3 ;网口扩展槽 e1000g4/5 ; iLOM 串口 SegmentHost2 没有使用网口扩展槽,原因是 SegmentHost2 只是用户数据节点,而SegmentHost1 既是用户数据节点,又是 MasterHost 的热备(standby )节点,所以SegHost1需要使用网口扩展槽e1000g4/5
扩展槽e1000g4/5连接广域网(用户网络),与用户连接
4网口主槽连接交换机个4个VLan :每个SegHost 上面的会有多个Segment 实例,假如每个实例都对应一个自己的网口,而且每个节点都有一个主网口连接到千兆交换机划分的虚拟网络上,例如所有节
点的e1000g3都连接到Vlan :172.16.0.* ,不同的网口都在不同的局域网中,所以相同SegmentHost 节点上的实例不会有网络带宽的竞争,使得数据访问更迅速。 iLON 与catalyst 2960交换机相连接,用于管理员连接登陆各节点,管理个服务器节点。 在生产环境中,Master \ Segment 节点的网口都会在6个以上,通过一个或多个交换机,将
e1000g5e1000g3e1000g2e1000g1e1000g0
192.168.e1000g3e1000g2e1000g1e1000g0
e1000g5e1000g3e1000g2
e1000g1e1000g0
as locally defined
各节点的网口,分组连接到不同的网段中,保证带宽的和高可用性。
Segment节点是没有公网出口的,Mast节点需要扩展网槽,连接到公网中。
网络交换机的冗余和高可用性:增加一个冗余交换机,Mast Host与Segment节点的网口分成两组分别
连接到两台内网交换机上,例如各节点的e1000g0/1 都连接到交换机A,e1000g2/3都连接到交换机B上,当A交换机宕机,各节点可以暂时通过B交换机的e1000g2/3网口进行连接和通信,提高了交换机及网路的高可用性
Synch process 同步MastHost上面发生的任何改变到standby master节点上,Mast instance坏掉,standby Master接管,避免单点故障。
3 Segment host都含有PrimarySegment ,每个segment Host都交叉备份其他segment 节点的primarySegment。Segment通过镜像交叉备份,实现高可用性。
通过synchronization process实现catalogs(数据字典信息)、transaction logs (事物日志)从Master节点同步到standby master节点上。
Primary 和standby 部署在不同的物理节点上。
Synchronization process不会频繁同步,primary master节点上的数据的改变不会立刻同步到standby master节点上
Standby master 不能自动接管故障Primary marter ,需要人工激活,激活前可以指定另外一个standby master节点。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。