交通银行“两地三中心”灾备体系建设
郑仕辉
【摘 要】交通银行在“两地三中心”建设中大胆创新,积累了丰富的经验,共进行了两次大规模的真实灾备系统切换运行,实现了大型机和开放平台数据库系统的同城双活运行,在国内同业中产生了重要的影响,推动了行业的技术进步和发展。
【期刊名称】《中国金融电脑》
【年(卷),期】2013(000)008
【总页数】3页(P14-16)
【作 者】郑仕辉
【作者单位】交通银行股份有限公司数据中心副总经理
【正文语种】银行为什么用db2数据库中 文
交通银行在“两地三中心”建设中大胆创新,积累了丰富的经验,共进行了两次大规模的真实灾备系统切换运行,实现了大型机和开放平台数据库系统的同城双活运行,在国内同业中产生了重要的影响,推动了行业的技术进步和发展。
商业银行信息系统的安全、稳定运行关系着国家金融安全和社会稳定,如何保障IT系统具有高可用性和防范各种风险和灾难的能力至关重要。为此,监管机构十分重视商业银行的灾难备份体系建设,多次发布了商业银行信息系统灾难备份的相关标准和指引,对商业银行灾备系统建设提出了明确的要求。为了防范灾难和风险,国内商业银行相继建立了同城和异地灾备中心,“两地三中心”已经逐步成为商业银行广泛采纳的灾备建设模式。
交通银行2006年完成了数据大集中,在上海张江建立了数据中心,于2007年将海外分行系统从香港迁移到张江数据中心运行,实现了境内外一体化的数据中心运行。为保障业务连续性,交通银行于2007年在上海浦西漕河泾建立了同城备份中心,2008年在武汉建立了异地灾备中心,形成了“两地三中心”的灾难备份体系。在灾备建设过程中,交通银行针对上述问题进行了深入的探索和实践,通过自主创新,建立了完善的灾难备份体系,交出了一份满意的答卷。
为了指导灾备体系建设,交通银行制定了“两地三中心”的发展规划,确定了灾备体系建设“统筹规划、分步实施;控制成本、保障有效;面向业务、分级灾备;平战结合、资源共享”的十六字指导方针。首先对“两地三中心”建设的目标、灾备等级,技术路线等进行总体规划;在灾备的建设顺序上,采取“先同城、后异地”的策略。其次,在保障灾备系统有效性的基础上,采取各种技术和管理手段,尽可能降低灾备系统的投资成本。再次,对业务系统进行分级,根据业务的重要性程度,确定业务的RPO和RTO目标,采用不同的灾备模式,达到不同的灾备等级,关键的业务实现双活运行,重要业务实现系统级灾备,其他业务实现数据级灾备。最后,对于大机系统和规模较大的开放平台系统,采用同城双中心运行的方式,使得备份中心的服务器资源也可以分流生产负载,实现资源共享。
该规划明确了两地三中心的功能定位,张江数据中心作为生产的主中心,承担全行所有集中式业务的生产运行;漕河泾中心作为生产副中心和同城备份中心,用于防范水灾、火灾、电力中断等区域性灾难,并可应对生产容量不足、局部故障等紧急情况,同时具备在日常分流部分关键业务的生产负载和在张江数据中心出现大面积的系统瘫痪时接管生产系统运行的能力;武汉中心作为异地灾备中心和多活中心,用于防范地震、海啸、战争等城市级的灾难。在张江中心和漕河泾中心均不能对外提供服务时接管生产业务,同时要兼顾部分生产系统异
地多活云计算部署的需求。规划还对各业务系统进行了分级,对各级业务系统的同城和异地灾备建设等级、RPO和RTO指标、技术实现方式等进行了规定,为业务系统的灾备建设提供了指南。
经过数年的建设和发展,交通银行漕河泾备份中心已经建立了完备的同城备份系统,实现了所有业务系统的数据级灾备,重点业务系统的系统级灾备(在灾备中心有备份服务器),以及部分关键业务系统的双活运行,灾备的等级达到国际和国家标准的最高级——第6级。武汉异地灾备中心已经建立了关键和重要业务的数据级灾备,目前正在推进关键业务的系统级异地灾备建设,灾备等级达到国家标准的第5级。
在充分借鉴和吸收国内外先进技术的基础上,交通银行进行了大胆的技术创新,研发了多项具有自主知识产权的关键技术,在灾备系统建设上多次实现了“零”的突破,在国内同业中创造了多个“第一”。
2008年8月,交通银行在同城备份中心建成后,为了验证灾备系统的有效性,进行了一次真实的大规模灾备切换演练,将核心账务、贷记卡、网银、电话银行、外汇等对外服务的关键业务系统切换到漕河泾中心,对外运行一天之后,又切换回张江数据中心运行。切换过程采
用了大规模灾备切换集中控制技术,将所有的切换和验证操作脚本化和自动化,使得切换和回切时间均控制在100分钟之内。交通银行的同城灾备系统的成功切换和对外运行,在国内大型商业银行中尚属首次,产生了重要影响。新华社内参的评论认为该事件“标志着我国商业银行灾难备份系统建设跨入国际先进行列,具有重大意义”。
为了有效降低大机系统的运行成本,2009年交通银行自主开发了基于大型机的远距离同城双中心交易分流处理技术,实现了核心业务和贷记卡系统在张江和漕河泾两个中心之间的同步运行。张江和漕河泾中心之间的光纤距离达到70千米。IBM GDPS Multi-Site方案也支持大机系统的双中心运行,但是,在GDPS Multi-Site模式下,交易的响应时间随着光纤距离的延长急剧下降(增长十倍以上),因此,GDPS Multi-Site支持的最大光纤距离不能超过30千米,对应的物理距离不到20千米,灾备效果大打折扣。交通银行通过交易的映射和分流,突破了IBM技术的限制,备份中心的大机和生产中心的大机构成同一个SYSPLEX,可以同时运行核心和贷记卡交易。大机双中心运行使得备份中心的资源得到有效的利用,节省了数据中心昂贵的大机CPU升级扩容费用,提高了生产系统的可用性,也使得漕河泾中心的功能从传统意义上的灾备中心转变为生产的副中心。
2011年10月,在同城灾备切换和双中心运行的基础上,交通银行在海外业务系统上进一步实现了分钟级的灾备切换运行,将海外业务系统(包括大型机系统和开放平台系统)从张江数据中心切换到漕河泾副中心运行,对外服务运行一天后,再切换回数据中心运行。整个切换过程实现了高度的自动化,由于实现了双中心运行,计划内切换过程用时14分钟,没有中断业务,计划外的切换过程业务中断仅4分钟。
2012年,交通银行进一步实现了开放平台DB2系统的双中心试点运行,采用IBM最新的GDPC技术,通过自行研发的JDBC分流技术,在国际上首次实现70千米距离的DB2数据库系统双中心运行。目前正在进行DB2双中心运行的推广工作。
灾备系统建设投资巨大,然而,商业银行的灾备系统建设普遍面临如下问题:第一,由于大规模、关联复杂的IT系统灾备切换技术复杂、风险极高,商业银行的灾备系统往往处于“有备份、无切换”的状态,灾备系统的有效性没有经过真实切换的验证;第二,生产系统环境不断变化,灾备系统的维护成本高,可用性难以保障;第三,灾备中心用于备份的服务器往往处于空闲状态,虽然一些银行将灾备系统同时用于开发测试,但其资源仍没有得到充分有效的利用,尤其是对采用大型机运行核心或贷记卡系统的商业银行而言,灾备大机的资源十分昂贵。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论