用户案例
中亦安图 :图技术在智能运维行业中的实践
智能运维落地中遇到的挑战
随着 IT 基础架构的标准化和自动化水平的提升,智能运维技术开始在越来越多企业落地。但相较于互联网企业,非互联网行业的智能运维还处于初级阶段,特别是金融行业,由于系统组件关系、运维对象、运维部门组织架构等比较复杂,而且监管要求高,运维人员更新与引进速度慢等综合因素,导致智能运维在金融业的落地门槛较高。
目前,专门针对运维场景设计与优化的机器学习算法已经逐渐成熟,智能运维落地的核心难点落在了如何对海量、多维、多模态的运维数据进行持续的数据治理与高效的数据分析。因此,能处理多维数据统一查询视图的运维数据基座成为众多客户与团队的真实痛点需求。
数据中心运维图谱(KGOPS)解决方案
为什么选择图(Graph)
在考虑多维运维数据的关联需求或尝试描述 IT 基础架构时,我们发现图是最符合业务直觉的表达方式。假想一下,故障发生时工程师脑海中最先浮现什么?就是负责系统的整体架构图与组件依赖关系,再结合自身的运维知识进行故障根因定位。
因此,为了支持能够灵活、快速地形成多维数据的查询视图,我们选择了 NebulaGraph 的图数据库作为更具优势的存储与计算核心。通过设计合理的图谱结构,组织起已经自动采集的 CMDB 数据、性能监控指标、应用日志数据,甚至是基于微服务的 Trace 数据,从而构建出真正能满足智能运维的数据基座。
图的优势:图查询与图算法
我们知道,变更是引起故障的重要原因之一。每次变更开始时,管理员都需要考虑变更对象、影响面、触发故障的隐患等一系列问题。部分问题可通过持续集成的管理去解决,另一部分问题则可通过对运维图谱进行图查询解决。 在故障场景中,也可以使用图查询的场景,如多告警实体关联查询,我们可通过结果视图寻找多个 IP 之间的关系,故障的根因就能浮出水面。
同时,使用图算法能够帮助企业进行运维数据分析和知识挖掘,从而释放企业长时间积累的运维数据的真实价值。常用的图算法包括:广度优先算法、深度优先算法、所有节点对最短路径、最小生成树算法、随机游走算法、中心性算法、紧密性中心性、社群发现算法等。
数据中心运维图谱(KGOPS)架构总览
上图展示的就是 KGOPS 解决方案整体架构图。它采用 NebulaGraph 作为图数据存储核心,通过结合动静数据,KGOPS 提供标准的 Schema 定义方案,用户可以根据自身 IT 环境的具体情况,实际需求进行定制化修改。同时,我们在 Server 层封装了大量图计算、图分析的模块,可以组合提供用户进行使用,并在用户层提供统一的工作台,用户可以方便地进行交互查询。
目前图相关技术已成为业界数据分析的热点和重点,诸多头部企业已经拥有多年将图应用于运维业务的经验,我们的智能运维解决方案依托于图数据库 NebulaGraph 本身的图计算能力与诸多头部金融客户的落地建设经验,提供开箱即用的图算法,帮助客户在具体的场景中实现智能算法,辅助疏通运维管理的阻滞点,提升运维团队整体效率。
使用场景
1. 数据流与访问关系
不同的应用之间基于业务逻辑,呈现出各类应用的数据访问关系,这些关系对应用的运行、重要性等都有重要的参考价值。配置管理数据库( CMDB )能够将数据流向关系与应用访问关系以可视化方式呈现出来,便于管理人员进行数据分析。
涉及技术:路径检索类算法、图谱自动布局算法、图谱交互可视化引擎。
价值:可用于性能分析、故障分析、影响分析,为管理者提供应用性能监控、数据链路支持。
2. 智能配置基线比对
基于应用系统的整体架构配置基线比对。包括对应用、中间件、数据库、服务器等进行配置比对。
价值:直观展示配置和架构上的差异,为灾备切换、应用发布等复杂场景提供可行性分析的数据支撑。
3. 单点隐患发现
应用系统的运行架构中,可自动发现单点运行的环节。
涉及技术:图视图切换、自定义图查询
价值:快速识别影响应用系统可用性的风险点
4. 重要程度分级
利用应用的类型信息、关系信息,分析应用的重要程度与影响范围,确定应用重要级别。
涉及技术:自定义图查询、节点影响力算法
价值:对应用系统的定级提供数据支持,便于管理者对应用系统进行更加精细化管理
5. 风险分摊模型
按应用的重要程度设置风险权重,并根据运行架构,将风险值向下分摊,到物理层时,能够自动计算不同物理节点的风险权重值。
涉及技术:节点影响力算法、图传播算法
价值:能够帮助管理人员识别出有风险汇聚的资源点,并且准确识别风险级别
合作案例
某大型股份制银行在项目初期面临的问题有:部分数据关联缺失/过多关联直接无法显示/无场景应用指导 / 多数偏向于自主查询。
中亦的团队通过融合该银行的 CMDB 与其他可获得的监控性能数据,配置变更数据、告警数据,采用科学合理的图谱设计方法,构建出统一、全面、可扩展性强,符合该银行自身业务特点的运维知识图谱。解决的具体场景有:
- 多节点关联分析
通过输入多个节点,实时多维度分析节点关联,帮助运维工程师洞悉隐藏于海量监控数据之中的故障机器之间各维度的显隐性关联关系,进而对下一步的排障工作提供指导。
- 告警事件全景透视
通过输入告警信息,穿透显示一定范围内的告警链路与机器拓扑,及其配置变更等信息,帮助运维工程师迅速了解全局情况,判断告警影响范围,确定关键影响节点,辅助生成排障方案。
- 配置变更影响分析
通过输入配置变更工单号,实时穿透历史变更情况与关联机器变更情况,帮助运维工程师分析变更配置的潜在风险。
项目收益:
构建并完善了全景应用运维图谱,不仅可以支持更复杂的运维管理场景变更影响面分析,并可以对外提供数据查询服务,大幅降低运维管理及外围系统查询对接成本。
将告警粒度从应用监控指标层穿透到资源指标层,明显提升了故障定位的精度。
将小时级排障缩短至分钟级排障,大幅提升了故障定位的时效性。
总结
智能化运维对于不同的角色带来的收益是不同的。 对于管理层,智能化运维可实现资产数据化和可视化,实现管理数字化,同时提升企业信息安全。
对于运维部门,智能化运维可实现企业动态应用拓扑图、智能基线比对、智能变更审核,同时支持基于 AIOps(人工智能 IT 运营) 的各种提升。
对于业务团队,智能化运维可实现部门资产可视化、成本数字化、运维数据采集加业务数据,实现全面提升运营、营销和反欺诈效果。
目前,智能运维解决方案已在金融行业进入落地阶段。欢迎相关行业伙伴前来交流,我们也希望为企业数据中心运维数字化转型提供更多支持。