数据中⼼灾难恢复的重要参考指标:RTO和RPO
⽤来描述和评价数据中⼼有很多专有参数和指标,通过这些数据可以反映出数据中⼼的各种运⾏状态,其中有两个关键指标必须有所了
解:RTO和RPO。
⽤来描述和评价数据中⼼有很多专有参数和指标,通过这些数据可以反映出数据中⼼的各种运⾏状态,其中有两个关键指标必须有所了
解:RTO和RPO。RTO和RPO是数据中⼼灾难恢复⽅⾯的重要参考指标。现在的数据中⼼对业务的连续性有苛刻要求,但是故障不可避免,⼀旦发⽣了故障就需要启动备份机制,确保业务的连续性,所以现在数据中⼼都有较为完善的容灾机制,RTO和RPO可以很好地反映出数据中⼼容灾性能如何。这两个参数是数据中⼼在运维过程中,⼀定要重点关注的指标。这个指标的好与差,是基于数据中⼼现有的各种综合运⾏情况评估得出的真实结果,反映当前数据中⼼在灾难恢复⽅⾯的修复能⼒。下⾯让我们来详细认识⼀下这两个参数的真⾯⽬。
RTO
RTO(RecoveryTimeObjective,复原时间⽬标)是数据中⼼可容许服务中断的时间长度。⽐如说服务发⽣
后半天内便需要恢复,RTO数值就是⼗⼆⼩时。RTO具体时间长短只是从故障发⽣后,从数据中⼼系统宕机导致应⽤停顿之刻开始,到数据中⼼系统恢复⾄可以⽀持各部门运作之时,此两点之间的时间段。RTO是反映数据中⼼业务恢复的及时性指标,表⽰业务从中断到恢复正常所需的时间,RTO数值越⼩,代表容灾系统的数据恢复能⼒越强,数据中⼼可以部署很多容灾系统,来获取最⼩的RTO,但这意味着投⼊⼤量资⾦。提升RTO的常⽤技术有:磁带恢复、⼈⼯迁移、应⽤系统远程切换,这⼏种技术的RTO的表现如表1所⽰:
部署不同的容灾技术将获得不同的RTO值,从业务连续性⾓度考虑,肯定希望RTO数值越⼩越好,尤其是很多互联⽹数据中⼼,中断⼏分钟都会损失数百万的成交量,这些数据中⼼往往不惜⼀切代价要确保数据中⼼不中断运⾏。应⽤系统的⾃动切换涉及到数据中⼼⽹络、、存储等多⽅⾯的技术,不管数据中⼼任何⼀个位置出现了故障,这些部分都会启动软件系统进⾏切换,可以是设备之间的切换,也可能是集之间的切换,还可能是异地数据中⼼切换,通过应⽤系统⾃动切换将业务转移到其它正常的系统中,然后再对故障设备进⾏排查。将故障原因到并排除后,再将业务切回到原有系统中,应⽤系统切换做得好,这个过程不会引起业务的⼆次中断,让业务⽆感知切换。
RPO
RPO(RecoveryPointObjective,复原点⽬标)是指数据中⼼能容忍的最⼤数据丢失量,是指当业务恢复后,恢复得来的数据所对应时间
点,RPO取决于数据中⼼数据恢复到怎样的更新程度,这种更新程度可以是上⼀周的备份数据,也可以是昨天的数据,这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才⾏。RPO是反映数据中⼼恢复数据完整性的指标。在同步数据复制⽅式下,RPO等于数据传输时延的时间,在异步数据复制⽅式下,RPO基本为异步传输数据排队的时间。提升RPO的常⽤技术有:磁带备份、定期数据复制、异步数据复制、同步数据复制等,这⼏种技术的RPO的表现如表2所⽰:
怎样恢复数据RPO指标考验着数据中⼼数据复制能⼒,这并不意味单纯增加数据复制的频率即可,因为应⽤的⾼峰时段⽆法进⾏备份操作,⽽且备份数据本⾝所花费的时间也会过长,数据复制频率增加到⼀定程度反⽽会降低RPO时长。现在出现镜像技术和快照技术可以有效地改进RPO,往往可以将RPO缩⼩到秒级。
RTO和RPO指标并不是孤⽴的,⽽是从不同⾓度来反映数据中⼼的容灾能⼒。我们⽤下⾯的图1说明下RTO和RPO两个指标在数据中⼼故障处理过程中的关系:
从图1不难看出,RPO指标来⾃于故障发⽣前,⽽RTO指标来⾃故障发⽣后,两者的数值越⼩,就能有效缩短业务正常到业务过渡期的时间间隔,单⼀地提升RTO或RPO指标也可以缩减业务故障到过渡期的时间,具体从哪个指标上来改善,就要结合数据中⼼的实际情况分析,提升那个指标代价最⼩,效果更明显。当然完美的⽅案当然是RTO和RPO都为零,这表⽰当故障发⽣后,系统⽴即回复,⽽且
完全没有数据丢失,要达到这样的⽬标系统设计是及其复杂的,⽽且造价也是⾮常昂贵的,也不⼀定有这个必要。
RTO和RPO指标对于数据中⼼⾮常关键和重要,RTO主要考验数据中⼼发⽣故障时,业务切换到容灾系统或者备份系统的能⼒,RPO主要考验数据中⼼数据备份能⼒,尤其是当数据中⼼发⽣故障时,仍要具备⼀定的数据备份能⼒。但数据中⼼也不能过分地追求RTO和RPO,因为RTO和RPO越⼩,意味着投资将越⼤。⽽总体投⼊成本越⾼,投资回报率将越低,从经济⾓度考虑,最好的容灾不⼀定是效益最好的容灾⽅案,容灾⽅案的总体投⼊和投资回报也是必须要考虑的设计指标,最佳的解决⽅案必须是在RTO、RPO、运维及价钱多⽅⾯,都能够达到平衡。所以要理性看待RTO和RPO,⼀⽅⾯我们努⼒设计⼀些新的容灾技术,另⼀⽅⾯还要简化容灾技术的复杂度和造价,不要⼀再去追求RTO和RPO指标,有时数据中⼼有些缺陷,也是⼀种缺陷美。过度追求RTO和RPO指标,甚⾄做到两者都是零,反⽽让数据中⼼更加臃肿,运维难度⼤,耗费资⾦过多,数据中⼼要避免陷⼊单纯追求提升两个指标的怪圈,结合数据中⼼实际情况,因地制宜地适当提升两个指标,才是正道。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。