考虑到企业数据仓库的重要战略意义(EDWs)和每年投入的巨额维护和扩展费用,如何容易地访问这些大量信息资产是非常迫切的需求。然而,许多EDWs成为自己成功的受害者。随着时间的推移,用户获取新问题答案的需要导致EDWs包含的数据量和复杂数据类型发生迅速增长,同时也带来更多的并发和复杂分析的压力。如果企业级数据仓库变得无法应付这种变化,或者服务水平协议(SLA)不能满足用户的要求,企业则往往不得不进行昂贵的数据库重新设计或硬件平台迁移扩容项目,这往往需要持续好多个月以及带来大量成本损失。即使如此新的架构也往往由于数据量增加得太快(目前已经有大量的客户从TB向PB级别扩展),而导致系统不得不进行更多的优化,这些优化需要占用大量的磁盘存储,带来了存储浪费和I/O瓶颈的问题。因此如何解决在以往EDWs架构保持不变的状况下来满足新的实时性分析应用的需要成为技术创新的重要领域。Vertica正是这一领域的积极创新先锋。
Vertica 创建于2005年,Vertica 成立于2005年,总部位于美国麻萨诸塞州的Billerica,在亚太和欧洲都设有Office。2011年3月被HP公司收购。它的合作创始人是数据库之父Michael Stonebraker,他曾开发了Ingres 和 Postgres数据库,是公认的数据库权威大师。Vertica是Stonebraker  基于MIT开发的C-Store 架构的商业实现,致力于解决当前数据分析平台日益增长的“大数据”和实时分析要求所带来的挑战,可以以传统解决方案30%的成本,实现50倍-10
00倍的性能提高。
常见mpp数据库从技术角度来看,目前数据分析技术主要面临以下四个挑战:
1. 数据量和数据复杂程度的增长。非结构化数据,如web数据,设备采样数据,图形数据等被纳入数据分析的视野,数据量也随之成倍甚至数十倍的增长。
2. 处理数据的时间窗口越来越短。以往存在往往一整个晚上进行批处理而无需考虑提供查询服务,现在则逐渐缩短到需要分钟级延迟的分析,即越来越多的准实时分析带来用户更强大的竞争能力、
3. 混合负载和大并发成为常态。以往数据分析只需要满足很少的几个高端用户,而随着数据分析的价值被广泛接受,越来越多用户,从高级分析者,到日常业务经理,甚至是一般操作人员都会需要数据分析提供的业务价值。因此大并发情况越来越多,有许多系统甚至可同时容纳多达数百上千的用户进行访问。
4. 需要保留较长时间的原始历史数据。合规性要求越来越严格,同时较长的历史数据使企业能够更加有效地分析各种业务变化的历史趋势,从而对未来业务发展提供科学依据。
传统的分析技术平台往往使用昂贵、专用的硬件产品,采用集中式的部署模式,数据流程处理复杂,大量使用批模式进行处理,影响缓慢且维护成本高昂。现在新的分析平台如vertica 则采用迥然不同的技术,采用低成本、开放的X86硬件平台,分布式的部署(可扩展到云服务),自服务的数据处理和优化,提供实时敏捷的响应能力。
Vertica整体架构如下图:
从架构中可以看到,其底层为支持实时分析的高性能列式数据库,带有业界最先进的数据库优化器引擎,并附带强大的数据压缩,高级分析,弹性扩展以及自定义外部扩展等先进特性,从而为满足未来big data 带来的业务分析挑战提供了最好的工具。
从一个数据库开发者的角度来看,Vertica分析数据库看起来中规中矩。它支持SQL,ACID事务属性,JDBC,和ODBC,也能与常见的ETL工具,BI报表产品相互兼容。虽然看似普通,Vertica实质上却是与众不同。Vertica 在设计上大幅度地优化了硬盘的读入读出IO操作,并且支持网格计算。Vertica,作为21世纪的数据解决方案,它是被设计用于捕捉和查询TB-PB级别的详细数据记录,比如电信的呼叫数据,网络设备监控数据(SNMP),IP详情记录(IPDR)的数据和其他快速增长的大规模复杂数据。
Vertica 具有突出的高性价比和强大性能,在大量客户的基准测试分析中,Vertica表现出强劲的查询性能,其速度是普通数据仓库的20-30倍,而成本仅为传统数据仓库的67%。具体见下图:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。