2020-09-21
隨著5G、雲計算和微服務等技術的發展,傳統的運維手段面臨挑戰,智能運維成為大勢所趨。亞信科技全域智能運維平台AISWare AIOps定位於提供AIOps能力引擎,為各域運維繫統注智和賦能。該產品結合實際需求,持續精益打磨,構築差異化優勢並落地實踐,取得了良好效果,獲得了多項行業獎項。後續,該產品仍將以需求為指引,持續發展,在精品之路上砥礪前行。
一、背景
傳統運維面臨挑戰,智能運維成大勢所趨
在ICT領域,從來不缺運維的身影。從早期的人工運維,到腳本運維、工具運維,再到目前的平台化運維,經過多年發展,運維監控能力已經初具規模。傳統運維方式大多依靠人工經驗進行分析決策。隨著5G、雲計算和微服務等技術的發展和落地使用,系統結構複雜性、技術組件多樣性愈發凸顯,傳統運維手段面臨諸多挑戰。比如,靜態閾值的告警方式存在諸多不合理的地方,成千上萬的指標和實例難以依靠人工逐一準確定義告警規則;運維人員每天收到幾千條告警,告警風暴嚴重,難以第一時間準確定位根因;出現故障後,在眾多服務節點、平台指標中依靠人工經驗規則排查和處理費時費力。因此,在新的形勢下,需要對傳統運維手段和工具進行突破。
以AI賦能運維,將人工總結運維規則的過程變為自動學習的過程,實現智能化的故障發現、診斷、處置、預防是擺脫傳統運維困境的主要突破口。智能運維(Artificial Intelligence for Operations,簡稱AIOps)成為運維領域的新賽道。 Gartner最新報告指出,AIOps是基礎設施和運營的十大技術趨勢之一,相關產業處於快速上升期,客戶滲透率在2022年將達到40%;另一家市場研究公司Markets and Markets的數據也顯示,預計到2023年,AIOps市場規模將從2018年的25.5億美元增至110.2億美元;其中,亞太地區在此期間將成為增長最快的市場。
二、AISWare AIOps
提供AIOps能力引擎,為各域運維繫統注智賦能
1、產品定位
亞信科技全域智能運維平台AISWare AIOps定位於提供AIOps能力引擎,為各域運維繫統注智和賦能。產品基於亞信科技AI平台算法模型,圍繞質量保障、成本管理和效率提升三大方向,將面向故障發現、診斷、處置、預測全流程以及智能決策、智能問答、容量規劃、資源優化等場景的智能化解決方案進行組件化封裝,構建可複用、可演進的運維學件,並以Open API方式對外提供能力,支持智能運維需求的快速落地,簡化對接流程,降低運維繫統融智和注智成本。
2、核心功能
(1)高內聚運維學件:圍繞質量保障、成本管理和效率提升三大方向,提供高內聚、低耦合的場景化運維學件,輕量級能力對接生產,支撐運維智能化需求的快速落地,便於復制和推廣;
(2)標準化API接口:將算法模型和推理規約封裝在學件內部,通過Open API接口,組件式方式與第三方系統集成,為其註智賦能;
(3)一站式開發運營:支持運維開發者結合各自的業務場景需求,調用現有服務,快速定義、訓練和發布個性化的運維學件,並提供運營管理和運行監控服務。
3、產品優勢
AISWare AIOps結合實際需求,持續精益打磨。一方面根據需求持續擴展運維學件支持的場景範圍,目前產品支持的AIOps場景已經超過40個;另一方面結合對運維場景的業務理解,不斷優化模型、提升效果,目前產品具備一系列自研的算法能力,相比開源算法,更能適應實際運維場景,表現優異。以指標異常檢測為例,通過自研算法實現精準化的故障發現,相比LSTM等算法,準確性可提高30%左右,資源消耗可降低50%,查全率和查准率也在行業中處於領先位置。
經過長期打磨,產品逐漸構築起差異化優勢:
(1)場景豐富:全面支持質量保障、成本管理和效率提升等多類場景,基於運維學件能力,實現運維智能化需求的快速落地,解決實際運維問題;
(2)算法積澱:基於長期積澱,面向複雜運維場景需求,以自研的算法模型構建學件能力,相比開源算法,更能適應實際場景,效果更優;
(3)組件集成:與運維繫統解耦,提供組件化學件能力,以Open API的方式與相關係統集成,簡化引入方式,避免重複建設,降低融智成本;
(4)平台支撐:以“平台+學件”相結合方式實現智能運維能力支撐,提供學件構建、開放、運營、管理的一體化服務。
三、案例
市場淬煉落地場景,創造價值獲得認可
目前,AISWare AIOps已廣泛應用於國內各大電信運營商的智能運維實踐,並適用於電力、廣電、金融、能源等行業。
1、應用案例
案例1:黃金指標異常檢測
AISWare AIOps在某通信運營商Kafka Topic流量、業務量、 負載均衡響應時延等多類指標監控告警中引入,實現智能化動態閾值異常檢測,日均調用超1200萬次,故障查全率99% ,查准率在90%左右,成功預測多次故障。
案例2:告警根因分析及收斂
AISWare AIOps在某通信運營商O域告警收斂場景中引入,通過告警RCA規則動態挖掘,實時定位根因告警,目前告警收斂率98%,有效緩解告警風暴。
案例3:微服務應用系統故障定位
AISWare AIOps在微服務調用鏈故障定位實戰場景中引入,從全鏈路角度出發,通過綜合分析各服務運行狀態、調用關係,進行調用鏈根因節點定位,並結合平台指標運行數據、拓撲關係,進一步智能推理、定位實際故障根因。從實際檢測數據看,平均故障查全率超過85%,查准率80%,大幅縮短故障定位時間。
2、產品價值
(1)提升整體運維效率:支持智能定位故障根因並給出處置策略,降低人員經驗依賴,大幅縮短故障定位時間,提升整體運維效率;
(2)保障系統運行質量:通過故障預警引擎,當指標出現裂化時,及時對業務和系統風險提前預警,避免生產故障,保障系統運行質量;
(3)合理控制運營成本:支持對資源效率進行智能評估和優化,對容量進行合理規劃,提高資源利用效率,進一步控制運營成本;
(4)增強人均運維能力:通過引入AIOps能力和技術,將運維人員從紛繁複雜的告警和高頻重複問題的處理中解放出來,增強人均運維能力。
3、行業榮譽
由於良好的商用成果與行業認可,AISWare AIOps獲得了多項工業界獎項。 2020年獲得第三屆國際AIOps挑戰賽亞軍,2019年獲得TMF亞洲峰會“最佳催化劑獎”,“跨域智能告警根因分析”等案例被收錄到GSMA《智能自治網絡案例報告》並在其門戶發布。
2020國際AIOps挑戰賽亞軍
2019年TMF亞洲峰會最佳催化劑獎
GSMA《AI in Network》優秀案例
四、展望
運維賦能持續發展,精品之路砥礪前行
AIOps市場逐漸回歸理性,需要更關注當前IT/CT運維面臨的迫切問題,如何把場景學件能力貫通形成複雜場景、高度智能的解決方案,並在運維實踐中推廣使用,最終實現無人值守的智能運維是後續發展的方向。而AISWare AIOps產品也將秉承為運維繫統注智賦能的宗旨和使命,以一線需求為指引,持續打磨產品能力,在精品之路上砥礪前行。