亚信科技精品之路2:AISWare AIOps实现从自动化到智能化的运维变革

2020-09-21 亚信科技

随着5G、云计算和微服务等技术的发展,传统的运维手段面临挑战,智能运维成为大势所趋。亚信科技全域智能运维平台AISWare AIOps定位于提供AIOps能力引擎,为各域运维系统注智和赋能。该产品结合实际需求,持续精益打磨,构筑差异化优势并落地实践,取得了良好效果,获得了多项行业奖项。后续,该产品仍将以需求为指引,持续发展,在精品之路上砥砺前行。


内图-精品之路2-AIOps.jpg



一、背景

传统运维面临挑战,智能运维成大势所趋


在ICT领域,从来不缺运维的身影。从早期的人工运维,到脚本运维、工具运维,再到目前的平台化运维,经过多年发展,运维监控能力已经初具规模。传统运维方式大多依靠人工经验进行分析决策。随着5G、云计算和微服务等技术的发展和落地使用,系统结构复杂性、技术组件多样性愈发凸显,传统运维手段面临诸多挑战。比如,静态阈值的告警方式存在诸多不合理的地方,成千上万的指标和实例难以依靠人工逐一准确定义告警规则;运维人员每天收到几千条告警,告警风暴严重,难以第一时间准确定位根因;出现故障后,在众多服务节点、平台指标中依靠人工经验规则排查和处理费时费力。因此,在新的形势下,需要对传统运维手段和工具进行突破。


以AI赋能运维,将人工总结运维规则的过程变为自动学习的过程,实现智能化的故障发现、诊断、处置、预防是摆脱传统运维困境的主要突破口。智能运维(Artificial Intelligence for Operations,简称AIOps)成为运维领域的新赛道。Gartner最新报告指出,AIOps是基础设施和运营的十大技术趋势之一,相关产业处于快速上升期,客户渗透率在2022年将达到40%;另一家市场研究公司Markets and Markets的数据也显示,预计到2023年,AIOps市场规模将从2018年的25.5亿美元增至110.2亿美元;其中,亚太地区在此期间将成为增长最快的市场。

1.png



二、AISWare AIOps

提供AIOps能力引擎,为各域运维系统注智赋能


1、产品定位

亚信科技全域智能运维平台AISWare AIOps定位于提供AIOps能力引擎,为各域运维系统注智和赋能。产品基于亚信科技AI平台算法模型,围绕质量保障、成本管理和效率提升三大方向,将面向故障发现、诊断、处置、预测全流程以及智能决策、智能问答、容量规划、资源优化等场景的智能化解决方案进行组件化封装,构建可复用、可演进的运维学件,并以Open API方式对外提供能力,支持智能运维需求的快速落地,简化对接流程,降低运维系统融智和注智成本。


2、核心功能

(1)高内聚运维学件:围绕质量保障、成本管理和效率提升三大方向,提供高内聚、低耦合的场景化运维学件,轻量级能力对接生产,支撑运维智能化需求的快速落地,便于复制和推广;

(2)标准化API接口:将算法模型和推理规约封装在学件内部,通过Open API接口,组件式方式与第三方系统集成,为其注智赋能;

(3)一站式开发运营:支持运维开发者结合各自的业务场景需求,调用现有服务,快速定义、训练和发布个性化的运维学件,并提供运营管理和运行监控服务。


3、产品优势

AISWare AIOps结合实际需求,持续精益打磨。一方面根据需求持续扩展运维学件支持的场景范围,目前产品支持的AIOps场景已经超过40个;另一方面结合对运维场景的业务理解,不断优化模型、提升效果,目前产品具备一系列自研的算法能力,相比开源算法,更能适应实际运维场景,表现优异。以指标异常检测为例,通过自研算法实现精准化的故障发现,相比LSTM等算法,准确性可提高30%左右,资源消耗可降低50%,查全率和查准率也在行业中处于领先位置。


经过长期打磨,产品逐渐构筑起差异化优势


(1)场景丰富:全面支持质量保障、成本管理和效率提升等多类场景,基于运维学件能力,实现运维智能化需求的快速落地,解决实际运维问题;

(2)算法积淀:基于长期积淀,面向复杂运维场景需求,以自研的算法模型构建学件能力,相比开源算法,更能适应实际场景,效果更优;

(3)组件集成:与运维系统解耦,提供组件化学件能力,以Open API的方式与相关系统集成,简化引入方式,避免重复建设,降低融智成本;

(4)平台支撑:以“平台+学件”相结合方式实现智能运维能力支撑,提供学件构建、开放、运营、管理的一体化服务。



三、案例

市场淬炼落地场景,创造价值获得认可


目前,AISWare AIOps已广泛应用于国内各大电信运营商的智能运维实践,并适用于电力、广电、金融、能源等行业。


1、应用案例


案例1:黄金指标异常检测

AISWare AIOps在某通信运营商Kafka Topic流量、业务量、 负载均衡响应时延等多类指标监控告警中引入,实现智能化动态阈值异常检测,日均调用超1200万次,故障查全率99%,查准率在90%左右,成功预测多次故障。


案例2:告警根因分析及收敛

AISWare AIOps在某通信运营商O域告警收敛场景中引入,通过告警RCA规则动态挖掘,实时定位根因告警,目前告警收敛率98%,有效缓解告警风暴。


案例3:微服务应用系统故障定位

AISWare AIOps在微服务调用链故障定位实战场景中引入,从全链路角度出发,通过综合分析各服务运行状态、调用关系,进行调用链根因节点定位,并结合平台指标运行数据、拓扑关系,进一步智能推理、定位实际故障根因。从实际检测数据看,平均故障查全率超过85%,查准率80%,大幅缩短故障定位时间。



2、产品价值


(1)提升整体运维效率:支持智能定位故障根因并给出处置策略,降低人员经验依赖,大幅缩短故障定位时间,提升整体运维效率;
(2)保障系统运行质量:通过故障预警引擎,当指标出现裂化时,及时对业务和系统风险提前预警,避免生产故障,保障系统运行质量;

(3)合理控制运营成本:支持对资源效率进行智能评估和优化,对容量进行合理规划,提高资源利用效率,进一步控制运营成本;

(4)增强人均运维能力:通过引入AIOps能力和技术,将运维人员从纷繁复杂的告警和高频重复问题的处理中解放出来,增强人均运维能力。



3、行业荣誉


由于良好的商用成果与行业认可,AISWare AIOps获得了多项工业界奖项。2020年获得第三届国际AIOps挑战赛亚军,2019年获得TMF亚洲峰会“最佳催化剂奖”,“跨域智能告警根因分析”等案例被收录到GSMA《智能自治网络案例报告》并在其门户发布。

2.png

2020国际AIOps挑战赛亚军

3.png

2019年TMF亚洲峰会最佳催化剂奖

4.png

GSMA《AI in Network》优秀案例



四、展望

运维赋能持续发展,精品之路砥砺前行


AIOps市场逐渐回归理性,需要更关注当前IT/CT运维面临的迫切问题,如何把场景学件能力贯通形成复杂场景、高度智能的解决方案,并在运维实践中推广使用,最终实现无人值守的智能运维是后续发展的方向。而AISWare AIOps产品也将秉承为运维系统注智赋能的宗旨和使命,以一线需求为指引,持续打磨产品能力,在精品之路上砥砺前行。