工行数据中心基础设施运维体系(访谈打造智能化运维利器)

文 / 新媒体记者 邝源

工行数据中心基础设施运维体系(访谈打造智能化运维利器)(1)

随着金融业务类型和支付形态的快速发展,面向C端的应用场景不断丰富,金融客户对服务的需求和稳定性要求不断提升;同时,IT技术的快速演进使得应用系统结构越来越庞杂,系统之间的相互关联度随之剧增,这些来自外部和内部的需求,不断促使金融机构积极思考、打破传统、勇于创新,通过不断的探索,全面加速推进自身数字化转型。

记者通过走访交通银行信用卡中心,深入了解了交行卡中心运维团队是如何在领导的信任和支持下,打破传统运维与其他部门之间的隐形屏障,将需求、研发、测试、配置和运维等各团队紧紧地凝聚在一起,通过转变理念、转型团队、优化流程、创新平台来稳步实现智能化运维的各项成果,向着智能运维的方向,探索出一条创新之路。

工行数据中心基础设施运维体系(访谈打造智能化运维利器)(2)

交通银行信用卡中心运维团队负责人 洪磊

工作思路的四大法宝

“我们的工作主要是围绕‘智能运维’这个目标进行规划和开展的,重点思路,总结为四个字,即‘道’‘法’‘术’‘器’。”交通银行信用卡中心运维团队负责人洪磊表示。

“道”指理念的转变。传统运维的弊端主要有如下几点:一是作业方式被动,俗称“救火队员”,哪里需要去哪里,运维时效慢、效率低,质量差;二是随着云原生、微服务等概念和技术的落地,运维的架构、技术要求变得异常复杂,传统的工具、方式、方法已经不能满足要求;三是传统运维人员的价值被严重低估,曾被业内“调侃”为技术鄙视链的底端;四是传统方式下,各机构的运维部门都是成本中心。洪磊认为,主动式的运维是必然的路径,怎样提升运维人员的价值,运维能否转型为业务赋能,以及如何通过突破或创新,将运维转变成为效益中心,这是他们对运维的深度思考。通过积极探索,交行卡中心运维团队逐步将运维提升到技术运营的高度上来,并取得了阶段性的成果。

“法”指团队的转型。传统的运维主要是巡检、故障排查、变更等一些日常问题的处理,都是比较偏流程性的工作。经过思考和探索,交行卡中心设计了运维前台和后台的梯队结构:后台团队负责运维的研发、打造运维的利器,提升运维的质量和效率;前台团队负责具体运维事项,并为后台输送炮弹。因为前台团队对系统、技术和业务是最熟悉的,他们会思考系统可以如何更优化,并提出优化的需求,同时将这些需求反馈给后台团队,由后台团队负责提升运维工具的水平,以一个良性的循环来提升运维的成效。

“术”指对管理流程的优化。传统运维是孤立的,与很多条线或部门存在类似“部门墙”的隐形屏障,通过对整个研发运维体系流程的重新梳理,通过 DevOps的理论体系、打造DevOps工具链,实现管理流程化、体系化、一体化,实现技术标准化、自动化、智能化,把需求、研发、测试、配置、运维等研发各个条线的团队紧紧绑定在一起,使生产运维逐步标准化、自动化,例如统一的微服务化框架、统一的基础运行环境,这些生产操作的对象相对来说是标准和统一的,目前交行卡中心的大部分系统都可以“一键发布”。洪磊表示:“未来,我们将通过生产运维的标准化、自动化,逐步向智能化演进。”

俗语说“工欲善其 事必先利其器”,交行卡中心倾力打造的“智慧运营中心”平台正是他们的运维利“器”,这是一个完全基于智能运维理论体系构建的全新的智能运维平台,涵盖日志中心、监控中心、事件中心、用户中心、数据中心、算法中心等各大功能模块,旨在实现实时业务感知、业务故障发现和业务故障处理,在成本、效率、质量、安全等方面,满足智能运维的要求。 目前该平台一期已经上线运行,通过构建运维中台能力,实现了统一的监控、告警、事件管理等,同时利用智能运维算法实现了智能的监控告警、事件压缩合并等智能运维场景,较大地提升了运维的质量和效率。后续将继续深耕平台建设、场景建设,持续优化平台能力。

直击痛点,探索征途

克服困难的过程是痛苦的,也是难忘的,却是非常值得的。据洪磊介绍:“我们面临最大的挑战是没有成熟的经验可以借鉴,只能摸着石头过河。我们首先是坚定信念,这很重要。我们的团队成员都坚信智能运维这件事可以做,并且一定要做成,不遗余力、不断试错。特别感谢公司和领导,给予我们充分的信任,允许我们不断地的尝试。我们集整个卡中心技术条线的力量,来共同打造我们的AIOps体系。 ”

关于平台建设,洪磊谈到:“目前智能运维方面多聚焦于某一点,如异常检测、动态阈值、告警压缩收敛等,而我们在平台建设之初,就奔着运维中台的概念去建设的”。据了解,平台建设过程中交行卡中心遇到两个痛点:第一个是做数据关联,因为运维的数据非常多,比如拓扑、调用链、日志、各种维度的监控数据等,通过什么样的方式将各种维度的数据进行关联?第二点是这么多数据可能并不规范或者相对规范的数据,如何做好数据治理?迎击痛点,最终在运维数据的构建上,运维团队创新性的使用了图的概念,把与运维相关的所有数据进行了关联,为后续真正的智能化提供了一个坚实的基础。

洪磊在谈到“智慧运营中心”平台的三个主要特点时谈到:“第一个特点是我们的数据很全面,我们收集了与运维相关的所有数据,在平台里可以进行查看、分析、关联,相当于我们对需要管理的每一个系统,从业务层到应用层,再到基础资源层进行了一个完整的画像,为我们分析问题和定位问题提供了非常坚实的数据基础。第二个特点是创新性的提出了‘指标体系’这样一个概念,传统监控的指标都是一个一个孤立的,我们把这些指标进行立体化关联,构建成一个体系,系统里的每一个指标与另外一个指标通过图的方式显示出其关联关系。比如我们对系统的业务层、应用层、技术运行层进行一个画像,然后定义它的这些指标,每一种指标和指标之间可能有很多种关系,我们让这些指标最终形成比较立体式的存在,它不再是一个冰冷的数字,通过成功地将这些指标体系化,基本上可以保障业务中发生的一些异常都可以在这里找到。第三个特点,是我们的技术框架是比较领先。我们使用了一些在业界比较通用或者比较领先技术,如Click House、Flink、图数据库等,构建了统一的数据采集、ETL、数据处理与计算、海量数据存储、算法引擎等能力。目前,平台的数据还在不断沉淀,在发现和定位问题上,已经初具雏形。相信未来我们可以提供更多的能力。”

规划先行,未来可期

关于交行卡中心的运维规划,洪磊谈到近期的规划主要是着眼现有平台,持续不断地去优化在运维中台的能力,不断去丰富现有的运维SaaS场景的能力。比如说多指标异常检测、基于图的告警压缩、自动化能力、故障恢复套餐等,通过不断优化让监控更加丰富、告警更加精确、故障处理能力进一步提升。

远期规划将围绕着AIOps智能运维体系去构建运维知识图谱、智能运维机器人等,通过智能化,更多地让系统做出故障判断或运维决策,更多地信任机器,让机器去做决策,释放更多的人力和时间,用于思考如何优化系统,提出反馈和建议。”

洪磊表示:“希望未来我们不再是‘背锅侠’‘救火队员’,早日实现‘咖啡运维’的理想”。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页