工商银行主机业务下移方法与实践
中国工商银行软件开发中心副总经理 罗毅
当前,随着数字经济的蓬勃发展,科
技自立自强的重要性日益凸显,银行业作
为关系国计民生的重要行业,急需通过技
术引领深化数字化转型,并同步提升自主
可控水平以实现长远发展。多年来,大型
主机以其稳定、高可用、高吞吐量等特点,
普遍应用于大型商业银行核心系统,但时
至今日,传统的集中式架构理念、相对封
闭的技术生态以及高昂的扩展成本,已愈
发难以适应新时期的数字化转型趋势与关
键核心领域的自主可控要求。面对上述挑
战,各家商业银行纷纷探索将核心业务向
开放生态系统迁移,以充分利用新技术加
快金融创新,抢占新一轮科技和产业融合
发展的制高点;同时扩大开放技术产品应
用,突破外部封闭技术生态,实现关键信
息基础设施自主可控,以更好地维护国家
金融安全,实现长期可持续发展。
中国工商银行软件开发中心副总经理 罗毅
2015年,工商银行正式启动IT架构转型,统筹安全与发展,运用企业级架构设计方法,积极推进主机集中式架构向开放平台云原生分布式架构转型,并同步实现生态级业务架构落地,形成了一套行之有效的实施方法与配套机制,针对转型过程中的重点、难点积累体系性解决方案,开辟了可复制推广的大型银行主机业务下移、赋能业务创新发展的新路径。
一、主机业务下移面临的技术挑战与应对策略
主机核心银行系统的技术特点主要涉及基础设施可用性、技术平台支撑能力、应用系统适配设计等几
个方面:首先,主机单体设备可用性高、并发和吞吐量大,通过少量设备组成系统耦合体即可支撑大体量业务运行,为客户体提供稳定的金融服务;其次,在集中式架构下,应用与数据集中部署,通过“CICS+DB2”保障事务强一致性,应用系统只需聚焦业务逻辑实现即可,对基础设施和技术平台故障的对策设计要求较低;再次,主机横向扩展能力不足、纵向扩展成本高昂,需要通过系统联机、批量功能分解与主、辅数据合理分布来平衡资源开销,交易设计倾向于通过大颗粒度接口整合以保障性能容量,包括减少上主机次数及缩短单笔交易响应时间,但也在技术上加大了主机系统耦合度。
面向上述特征,如要在开放平台承接主机业务下移,即需要在技术上应对多项挑战:首先,核心银行业务连续性要求较高,需要实现与主机相当或更优的高可用性;其次,分布式微服务架构增加了研发、运维难度,需要技术平台提供金融级解决方案支撑;再次,原本基于主机集中式架构设计的系统难以适应业务创新和技术转型趋势,需要完善企业级架构方法,并重新结合开放平台特点进行适配。
1.实现开放平台高可用性,满足核心银行业务连续性要求
开放平台单机可用性、并发及吞吐量均弱于主机,需要以横向扩展方式,通过多设备集部署,在整体上达到并发及吞吐量的预期水平,同时需引入分布式架构,结合应用服务多活和数据库多副本来提升整体可用性。但是,该模式将导致开放平台节点增多、设备数量增加,从而加大底层软硬件资源的供给、部署及运维复杂度,需要进一步打造云计算平台,提升资源灵活供给和系统自动化运维能力。
对此,工商银行采用“开源结合自研”模式,建设涵盖基础设施云IaaS、应用平台云PaaS、金融生态云SaaS的金融级云计算平台,为主机业务下移和生态银行建设提供了秒级弹性伸缩、万级集支撑、全流程快速交付、自动化智能运维等基础设施和公共技术服务,实现10余万个节点和20余万个容器的自动化集约管理,资源供应时间由2~3周缩短至分钟级,并在主机业务下移过程中实现应用全部入云进行容器化部署,同步实施了分布式转型。
在此基础上,工商银行围绕云原生分布式系统架构,进一步建立了覆盖本地、同城、异地的三级开放平台高可用体系,以保障主机业务下移后,开放平台在重大故障或灾备场景下具备不低于主机系统的高可用性。此外,在本地高可用方面,工商银行重点加强了节点故障自隔离能力;在同城双活方面,实现了MySQL数据库集园区级一键切换,切换时间缩短至1分钟以内;在异地灾备方面,构建了面向分布式架构的平台异地灾备切换体系。
2.完善技术平台支撑能力,提供金融级解决方案
主机业务下移后,原本在主机集中部署的应用将下移到各自的开放平台环境中,并在分布式架构下被进一步拆分到不同节点。同时,在微服务体系下,服务数量将大幅增加,应用之间、应用内部节点之间的网络通信也将显著增多,类似变化迫切需要在开放平台中搭建支撑应用系统对服务、数据、通信等进行管理的技术平台,以降低转型复杂度和潜在风险。
对此,工商银行打造自主可控、体系完备的分布式技术体系,为承接主机业务提供了基础技术平台;面向研发环节,通过建设开发支持、资产共享、研发协同等一系列支持平台,为开发人员提供一站式解决方案;面向生产运行环节,通过建设分布式服务、数据库、软负载、事务、消息、批量、缓存、对象存储、文件存储等九大运行支撑平台,实现公共技术能力的集约建设与运营;面向运维环节,通过建设配置中心、日志中心、全链路监控、流量调度等一系列运维支持平台,实现了可监控、可追溯、易定位、可隔离、可限流且适应分布式架构的高效运维。
在此基础上,工商银行进一步对银行业务场景和系统特点进行分析、提炼,建立了数据强一致型、大型信息型、线上渠道交互型、报文转发型等四种参考技术架构,并配套设计服务、事务、消息等处理模式,使得具有类似特点的应用可基于上述原型快速构建技术框架。
3.推进应用系统重构,适配基础设施和技术平台变化
因核心银行系统建设周期较长,各专业系统通常需要随业务条线发展同步迭代演进,易导致技术前瞻性受到影响,企业级视角的标准化设计、共享复用能力也往往存在不足,且伴随业务创新与技术转型的不断推进,系统规模和复杂度逐步增加,业务领域和研发组织的耦合度升高,多种因素叠加致使相关成本和风险持续增加。面对上述挑战,主机系统功能不宜简单地进行原位迁移,而应强化企业级架构设计方法,自上而下指导体系性重构,以提升科技和业务融合效果,畅通业务战略到应用架构的传导过程。
对此,工商银行创新提出了生态级业务架构建模及落地方法,基于统一架构语言,提炼标准业务组件形成了共享模型资产,可高效支撑业务产品快速创新与业务流程灵活定制,实现科技与业务高效融合。同时,在主机业务下移过程中,工商银行以业务架构为指导,承接业务组件、任务组件、业务对象“高内聚、松耦合”的特性,实现应用架构分层解耦,通过组件化对接落地打造了开放平台微服务体系,并建立从业务规划到业务架构,再到IT系统的战略传导落地路径,切实增强了对全行经营发展和开放生态建设的支撑。
在此基础上,面对基础设施和技术平台变化,工商银行从业务逻辑严密性、环境适配性入手,建立了完整的正常态、中间态、异常态应对机制,并进一步总结梳理了从主机到开放平台的技术特点变化:
一是分布式架构下设备数量增加、通信环节增多、单机可用性下降,使得应用节点之间因为容器故障、网络抖动等原因造成不一致的概率增大,且在事务框架和模型支持的基础上,应用还需要进行分支事务的幂等/空回滚/防悬挂等适配改造,以增加相应的疑账、对账处理能力,并针对账务处理跨日切、外部合作方交互等特殊场景,建立账务自平衡、强制终态等机制。
二是微服务体系下服务数量增多、服务颗粒度缩小,相对主机接口大颗粒度的封装模式,交易结构由串行链路向星型结构转变,交易层次减少、服务分支增多,需要通过企业级架构强化自上而下的服务设计,提升服务规范性和稳定性,加强共享复用,并结合以业务对象为中心的服务聚合等方式控制服务增长速度。
三是开放平台系统突破主机横向扩展能力不足、纵向扩展成本高昂的局限,弹性伸缩能力获得极大提升,但在系统设计时需要转换对性能容量的考量视角,例如联机、批量的定位和设计模式,以及主、辅数据的部署和服务模式等,均需要结合分布式系统特点进行适配调整。
为应对上述变化,工商银行在实践中逐步形成了跨主机平台事务一致性设计、流批一体等分布式批量设计、业务一致性核对、双机并行验证、异构系统跨日切处理、开放平台账务自平衡等40余项通用标准化解决方案,
全面覆盖业务场景和技术场景,为主机业务下移过程中应用系统快速适配提供了有力支撑。
二、工商银行主机业务下移工程实践
历经6年时间,工商银行现已基本构建起较为完整的开放平台核心银行系统,并同步实现了从传统主机集中式架构向开放平台云原生分布式架构转型,赋能业务创新发展。近日,智慧银行生态建设工程(ECOS)荣获“2020年度人民银行金融科技发展奖特等奖”。
1.首创“6步工程实施工艺”,有效分解工程整体复杂度
主机业务下移具有范围广、投入大、工期长、方案复杂、内外部影响大等诸多特征,且整体实施风险极高。为避免研发投入和实施风险过于集中,控制技术转型对业务创新的影响,需要统筹规划实施路
径,分解工程复杂度,平衡业务创新和技术转型资源投入,缓释、化解系统性风险,确保转型过程安全平稳、万无一失。
面向上述挑战,工商银行规划设计了“基础先行、业务板块有序解耦下移”的实施路径,选择优先在开放平台打造公共基础服务(如会计核算、资金清算、客户信息、柜员管理等),并在开放平台建立了可同时支撑主机和平台产品的业务底座,既高效支持了转型过程中主机平台的平稳过渡,也解除了产品之间的公共耦合。在此基础上,工商银行结合对赋能业务创新、平衡资源投入、缓释转型风险等方面的考量,有序安排各业务板块下移,并首创“6步工程实施工艺”,确保各应用实施模型统一高效,实施工作相互解耦,有效分解了工程整体复杂度。
分布式和微服务的关系一是开展下主机应用平台服务入口建设,即下主机应用在平台中建设服务入口,但其具体功能仍由主机提供,形成从开放平台引入业务流量的能力。
二是配合应用改造,在开放平台建立组合服务节点,组合调用自身主机功能和下主机应用平台服务入口,形成启动业务切流的能力。
三是配合应用切流,支持进一步分层切换,包括渠道业务流量切换到产品应用平台组合服务入口(渠道切流),产品业务流量切换到下主机应用平台服务入口(产品切流),实现端到端的平台服务入口调用,该阶段完成后即实现了各应用转型的路径解耦。
四是开展下主机应用平台功能建设,即下主机应用选择在平台节点完成全部功能建设、提供全量服务,进而将主机数据迁移到开放平台,形成在平台中直接开展业务的能力。
五是实现下主机应用在主机与平台并行,即下主机应用业务数据迁移至平台,通过双写保证主机和平台数据一致,实现主机与平台并行运行,并核对验证平台功能完备性、准确性,使下主机应用可在平台节点提供全量服务、存储全量数据,具备相关业务完全在平台办理的能力。
六是以平台为准提供服务,即下主机应用以平台功能和数据为标准提供服务,关键业务数据实时复制至主机,主机只作为应急回切备份,支持在极端故障场景下回切主机以保障关键业务的连续性,并可在运行一段时间后视情况断双写退出主机。
2.推进研发和运维全面转型,支撑业务创新与技术演进
相较而言,开放平台的基础设施和技术栈更加开放化、多样化,技术演进更为迅速,系统结构更加复杂,技术资产规模也进一步扩大。针对上述变化,为确保主机业务下移后的研发质量、效率和生产安全,需要对原有主机集中式架构下相对集约化的研发、运维配套机制同步调整完善。对此,工商银行依托全行发力、分层协作的组织保障机制,统筹协调研发和运维全面转型,支撑业务创新与技术演进。
研发方面,一是完善规范指引体系,建立主机应用架构转型技术专家委员会和分布式、云计算等专项技术
支持团队,持续完善云原生及分布式架构下的规范指引体系,并对全部下主机设计方案统一把关,统一制定共性问题解决方案,深入指导转型研发;二是不断完善研发管控体系,将主机下移结合研发运维一体化(DevOps)建设,创新构建了与分布式架构相适应的敏捷研发机制,打通需求挖掘、产品开发、测试、投产、运营和用户行为反馈等各环节,同时强化质量内建,将应用转型的执行标准纳入质量门禁,结合架构资产管控平台高效保障了设计遵从性与架构资产质量。
运维方面,一是构建面向未来的运维架构体系,以单元化架构为基础,通过落实单元划分、物理部署和技术架构优化、资源隔离、实体团队组建等措施,强化面向业务、端到端的系统性风险管控、运营监控和应急能力建设;二是全面强化快速发现、准确定位、有效处置能力,协同运用设备、系统、网络、应用等各专业领域的监控手段,累计部署数十万个监控点,重点应用监控效率由分钟级提升至秒级,形成全链路、立体化监控体系,并以“第一时间恢复对客服务”作为故障应急处置的核心目标,通过健全机制、完善预案、加强演练等方式,稳步提升生产运维实战能力。
3.实现全球银行业规模最大的主机业务下移,赋能业务创新发展
截至目前,工商银行已在开放平台形成较为完备的核心业务基础支撑能力,基本完成业务量最大的零
售板块下移,并充分利用主机业务下移和金融科技快速发展的契机,赋能业务创新发展。
基础服务方面,打造开放平台企业级客户信息系统,全部迁移7亿多个人客户和1千多万对公客户的主机数据,支撑每天2亿次客户信息访问,并引入人脸识别、声纹识别等新技术开展客户身份识别认证,如将人脸识别技术运用到开户场景,在增强客户身份真实性核验能力的同时,有效提升线上业务办理便捷性;又如使用人脸识别技术实现个贷LPR转换业务的客户身份验证,支持客户远程“非接触”办理业务。此外,开放平台会计核算系统运用流式处理技术,在每笔业务发生后可进行内部账务核算处理和总账更新,支持业务人员准实时掌握本机构资产负债、损益等变动情况,核算效率较传统的“T+1”方式大幅提升。
业务产品方面,实现账户数据量最大的借记卡账户下移主机,开放平台现已承载全量近10亿借记卡账户、日均逾14亿的服务调用,以平台为准对外提供服务并支持故障时灵活回切主机。同时,通过重新设计账户、介质、协议之间的关系,并将此前“以介质为主线关联账户和产品协议”调整为“以账户为载体签署各类关联协议”,实现了客户“换卡无忧”,更好地适应了未来介质虚拟化的发展趋势。此外,完成信用卡平台功能建设,将主机数据迁移至开放平台实现主机、平台双机并行,并在开放平台进行一体化收单重构,以及将快捷支付等高频、大业务量产品迁移到开放平台,充分发挥了横向扩展、弹性伸缩的技术优势,实现在“双十一”场景中的全链路交易响应时间综合排名同业领先。
使命在肩,任重道远。未来,工商银行将继续结合内外部形势变化,持续推进核心系统安全平稳转型,并进一步从分享行业经验、参与行业标准建设、输出技术平台和实施工艺等方面为金融行业推进主机业务下移、实现信息基础设施自主可控转型提供工行范本,贡献工行力量!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论