分布式数据库的核⼼——数据分⽚、数据同步。
1. 数据分⽚
该特性是分布式数据库的技术创新。它可以突破中⼼化数据库单机的容量限制,从⽽将数据分散到多节点,以更灵活、⾼效的⽅式来处理数据。这是分布式理论带给数据库的⼀份礼物。
分⽚⽅式包括两种。
⽔平分⽚:按⾏进⾏数据分割,数据被切割为⼀个个数据组,分散到不同节点上。
垂直分⽚:按列进⾏数据切割,⼀个数据表的模式(Schema)被切割为多个⼩的模式。
2. 数据同步
它是分布式数据库的底线。由于数据库理论传统上是建⽴在单机数据库基础上,⽽引⼊分布式理论后,⼀致性原则被打破。因此需要引⼊数
Oracle RAC 是典型的⼤型商业解决⽅案,且为软硬件⼀体化解决⽅案。我在早年⼊职国内顶级电信⾏业解决⽅案公司的时候,就被其强⼤的性能所震撼,⼜为它⾼昂的价格所深深折服。它是那个时代数据库性能的标杆和极限,是完美⽅案与商业成就的体现。
我们试着⽤上⾯谈到的两个特性来简单分析⼀下 RAC:它确实是做到了数据分⽚与同步。每⼀层都是离散化的,特别在底层存储使⽤了ASM 镜像存储技术,使其看起来像⼀块完整的⼤磁盘。
这样做的好处是实现了极致的使⽤体验,即使⽤单例数据库与 RAC 集数据库,在使⽤上没有明显的区别。它的分布式存储层提供了完整的磁盘功能,使其对应⽤透明,从⽽达到扩展性与其他性能之间的平衡。甚⾄在应对特定规模的数据下,其经济性⼜有不错的表现。
这种分布式数据库设计被称为“共享存储架构”(share disk architecture)。它既是 RAC 强⼤的关键,⼜是其“阿喀琉斯之
踵”,DBA 坊间流传的 8 节点的最⼤集限制可以被认为是 RAC 的极限规模。
该规模在当时的环境下是完全够⽤的,但是随着互联⽹的崛起,⼀场轰轰烈烈的“运动”将会打破 Oracle RAC 的不败⾦⾝。
⼤数据
常见mpp数据库这是⼀次⽔平扩展与垂直扩展,通⽤经济设备与专⽤昂贵服务,开源与商业这⼏组概念的⾸次⼤规模碰撞。拉开了真正意义上分布式数据库的帷幕。
当然从⼀般的观点出发,Hadoop ⼀类的⼤数据处理平台不应称为数据库。但是从前⾯我们归纳的两点特性看,它们⼜确实⾮常满⾜。因此我们可以将它们归纳为早期⾯向商业分析场景的分布式数据库。从此 OLAP 型数据库开始了⾃⼰独⽴演化的道路。
除了 Hadoop,另⼀种被称为 MPP(⼤规模并⾏处理)类型的数据库在此段时间也经历了⾼速的发展。MPP 数据库的架构图如下:
其中尤以“去 Oracle 数据库”产⽣的影响深远。⼗年前,阿⾥巴巴喊出的这个⼝号深深影响了国内数据库领域,这⾥我们不去探讨其中细节,也不去评价它正⾯或负⾯的影响。但从对于分布式数据库的影响来说,它⾄少带来两种观念的转变。
随着分布式数据库的发展,我们⼜迎来了新的⼀次融合:那就是 OLTP 与 OLAP 将再⼀次合并为 HTAP(融合交易分析处理)数据库。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论