北京2022年4月29日 /美通社/ -- 4月26日,中国信通院主办了\"稳保计划\"首届云系统稳定性大会。会上,\"稳保计划\"云系统稳定性领域的最新评估结果、混沌工程先锋实践者优秀案例评选结果正式公布。
中电金信凭借在混沌工程领域的研发积累和丰富的工程实践,与恒丰银行携手建设的\"恒丰银行红蓝对抗演练\"获得了首届\"混沌工程先锋实践者\"优秀案例奖\"。
混沌工程
混沌工程作为分布式系统稳定性的重要保障,近年来成为推动企业IT韧性系统建设的强大力量。
2021年中国信通院以混沌工程为切入点开展了一系列工作,历时4个月,对国内一批成熟度高、具有示范标杆作用的优秀混沌工程实践案例进行了调研和评选。恒丰银行与中电金信合作的\"红蓝对抗演练\",极大地提升了运维团队应对故障处置的能力,成功入围了首届\"混沌工程先锋实践者\"优秀案例奖评选。
近几年,分布式架构引入银行体系后,分布式微服务架构的应用让基础设施复杂度日益增高,系统不稳定性也增多,且传统运维演练成本高、费时费力。
恒丰银行烟台数据中心开放场景,与中电金信分阶段开展\"红蓝对抗演练\",通过系统常态化的故障演练,红方和蓝方在对抗过程中提前发现并修复系统中的潜在问题,从而提升了系统的稳定及可靠性,有效地提升了运维团队应对故障处置的能力。
中电金信|恒丰银行团队
红蓝对抗演练平台
中电金信所设计的混沌工程实验平台由基础设施和扰动注入模块、任务调度模块、平台管理模块、平台核心功能等多个模块组成,为红蓝对抗演练提供环境搭建、故障复现、演练事件管理、发起演练等相关功能。
平台不仅包含ChaosBlade常见的故障类型,而且扩充了部分中间件异常以及银行关注的交易一致性场景案例,结合银行系统的特点,打造适用于银行系统的混沌案例库,通过实验管理的方式进行红蓝对抗演练。
混沌工程平台架构图
混沌工程实验平台落地实践过程中,采用了一系列创新性方法和方式。如将银行关注的高可用案例封装成混沌案例库,其中包含高可用相关停应用、停服务、宕网卡、宕机、假死等案例,以及从生产事件、应急预案中抽象的如存储占满、损坏,交易一致性相关等案例。
此外,演练还联动应急预案与线上告警系统,该系统可以在发生系统问题时,快速定位问题并找到对应的处置方法,有力地提升事件的处置效率。
\"红蓝对抗演练\"主要在准生产环境进行,应用范围覆盖251个系统,共计1533个部署单元,2605台服务器,涵盖核心系统、手机银行、支付结算、电子银行等重要系统。
下一阶段,恒丰银行还将与中电金信合作,在落地混沌工程实验方面进行更加深远的探索,为行方带来更加完善且高效可行的演练解决方案。