匯付AIOps平臺(tái)上線,運(yùn)維效能進(jìn)入Next Level
現(xiàn)下,AI技術(shù)已經(jīng)步入大規(guī)模應(yīng)用的階段。企業(yè)內(nèi)外部系統(tǒng)疊加AI buff,效果往往超乎想象。在IT運(yùn)維領(lǐng)域,AI的應(yīng)用也逐步走進(jìn)企業(yè)的視野,AIOps應(yīng)運(yùn)而生。AIOps(Artificial Intelligence for IT Operations),最早由Gartner在2017年提出,即人工智能運(yùn)維,簡(jiǎn)單解釋就是將人工智能技術(shù)運(yùn)用于IT運(yùn)維工作流程,實(shí)現(xiàn)自動(dòng)化運(yùn)維、減少故障率和降低運(yùn)維成本等。
作為與系統(tǒng)穩(wěn)定和客戶體驗(yàn)密不可分的環(huán)節(jié),運(yùn)維工作在匯付向來(lái)備受重視。匯付已落成NOC(Network Operations Center)網(wǎng)絡(luò)運(yùn)營(yíng)中心,并建立了一套完整的監(jiān)控、告警、應(yīng)急與預(yù)案的故障管理體系,保障系統(tǒng)穩(wěn)定運(yùn)行。
但如何讓故障定位更快速?如何準(zhǔn)確判斷故障的等級(jí)和影響半徑?如何迅速關(guān)聯(lián)到演練預(yù)案,從而及時(shí)處置故障?種種問題仍然困擾著運(yùn)維和開發(fā)人員,也意味著系統(tǒng)仍有優(yōu)化的空間。在現(xiàn)有運(yùn)維系統(tǒng)之上,匯付加入了圖算法、時(shí)序算法、Dify大模型、ChatGPT、RAG(檢索增強(qiáng)生成)等AI算法和大模型,打造了一個(gè)更高效和自動(dòng)化的智能運(yùn)維系統(tǒng)——AIOps平臺(tái)。
●“智能化”故障診斷,排障快人一步
傳統(tǒng)運(yùn)維流程下,當(dāng)遇到聯(lián)調(diào)測(cè)試不通、系統(tǒng)故障時(shí),通常需獲取關(guān)聯(lián)數(shù)據(jù)、整合信息,并由業(yè)務(wù)、開發(fā)、系統(tǒng)等多個(gè)團(tuán)隊(duì)的專家協(xié)同進(jìn)行故障定位,效率與精度有賴于個(gè)人經(jīng)驗(yàn)、團(tuán)隊(duì)配合度等因素。AIOps平臺(tái)幫助運(yùn)維人員穿越繁雜的告警信息“迷霧”,快速檢測(cè)和智能定位故障,并進(jìn)行根因分析,既減少了經(jīng)驗(yàn)判斷可能存在的誤差,也節(jié)省了部分運(yùn)維人力和時(shí)間成本,讓故障診斷更快速、更精準(zhǔn)。AIOps平臺(tái)現(xiàn)已實(shí)現(xiàn)故障診斷5分鐘完成,提升診斷效率約100%,并覆蓋應(yīng)用關(guān)聯(lián)故障定位、資源節(jié)點(diǎn)故障定位等12個(gè)場(chǎng)景。
●提升可觀測(cè)性,實(shí)現(xiàn)全流程“可視化”
可觀測(cè)性(Observability),是IT運(yùn)維領(lǐng)域熾手可熱的概念之一,指系統(tǒng)或應(yīng)用程序的運(yùn)行狀態(tài)、性能指標(biāo)、日志信息等能否被監(jiān)控、收集和分析。可觀測(cè)性也是衡量IT運(yùn)維能力的一把“尺”。AIOps平臺(tái)在提升可觀測(cè)性方面大有建樹,且落地場(chǎng)景豐富,可實(shí)現(xiàn)全流程“可視化”。在架構(gòu)遷移的場(chǎng)景下,支持觀測(cè)網(wǎng)關(guān)機(jī)群遷移的情況,避免產(chǎn)生誤操作;為提升應(yīng)用程序的可用性、可擴(kuò)展性和安全性,對(duì)應(yīng)用程序進(jìn)行拆分和多集群部署是“常規(guī)操作”。在此場(chǎng)景下,支持實(shí)時(shí)確認(rèn)部署狀態(tài),快速規(guī)劃和調(diào)整集群分配,以實(shí)現(xiàn)資源優(yōu)化配置、故障快速恢復(fù)和系統(tǒng)穩(wěn)定;在數(shù)據(jù)監(jiān)控場(chǎng)景下,通過對(duì)任務(wù)狀態(tài)監(jiān)測(cè)和數(shù)據(jù)鏈路追蹤,能夠快速定位出錯(cuò)任務(wù)并及時(shí)恢復(fù)。
●故障注入,構(gòu)建強(qiáng)大的“免疫系統(tǒng)”
作為一種應(yīng)用測(cè)試方式,故障注入(Fault Injection, FI)如同接種“疫苗”,主動(dòng)向系統(tǒng)或應(yīng)用程序注入各類故障,模擬和復(fù)現(xiàn)故障場(chǎng)景,從而提前發(fā)現(xiàn)潛在風(fēng)險(xiǎn)、評(píng)估系統(tǒng)可靠性,增強(qiáng)系統(tǒng)“免疫力”。AIOps平臺(tái)支持12類、50余種故障類型的定時(shí)注入,提供分組、分區(qū)、按應(yīng)用、按百分比等多種演練方式,通過故障注入與故障診斷的“對(duì)抗演練”,逐步增強(qiáng)系統(tǒng)的抗風(fēng)險(xiǎn)能力。同時(shí),常規(guī)化的故障注入也將訓(xùn)練AIOps大模型,讓模型更強(qiáng)大,更精準(zhǔn)地識(shí)別風(fēng)險(xiǎn),反哺業(yè)務(wù)和系統(tǒng)的穩(wěn)定性,助力業(yè)務(wù)應(yīng)急恢復(fù)更快速。
●AI交互,智能運(yùn)維助手上線
以往,當(dāng)業(yè)務(wù)開發(fā)想了解系統(tǒng)和業(yè)務(wù)配置、查詢實(shí)時(shí)狀態(tài)等信息時(shí),需要對(duì)接相應(yīng)的系統(tǒng)負(fù)責(zé)人,耗時(shí)費(fèi)力。現(xiàn)在,AIOps平臺(tái)為所有用戶打造了一個(gè)“得力”的AI運(yùn)維助手,檢索關(guān)鍵詞即可快速查詢和定位所需信息,讓運(yùn)維和開發(fā)工作事半功倍。隨著大語(yǔ)言模型等AI技術(shù)應(yīng)用的不斷深入,運(yùn)維助手也將增強(qiáng)AI交互,在不久的將來(lái),通過動(dòng)態(tài)聊天和對(duì)話,用戶就能輕松獲取問題診斷以及知識(shí)庫(kù)問題的答案。
AIOps平臺(tái)初版現(xiàn)已上線運(yùn)行一段時(shí)間,也上交了一份高分“答卷”。期間,平臺(tái)完成了3次事件快速診斷,避免嚴(yán)重故障的發(fā)生;32次告警事件診斷,快速及時(shí)確認(rèn)告警影響范圍;200次應(yīng)急故障演練,驗(yàn)證和確保系統(tǒng)穩(wěn)定性;同時(shí),提升故障演練操作效率達(dá)90%。AIOps平臺(tái)的上線為多個(gè)團(tuán)隊(duì)的日常工作提效,如幫助NOC團(tuán)隊(duì)快速診斷故障、為運(yùn)維團(tuán)隊(duì)集群及容量規(guī)劃提供參考、輔助業(yè)務(wù)開發(fā)團(tuán)隊(duì)識(shí)別風(fēng)險(xiǎn)和協(xié)助開發(fā)。AIOps平臺(tái)更為系統(tǒng)和交易的穩(wěn)定性“加碼”,助力客戶體驗(yàn)升級(jí)。
匯付始終直面AI技術(shù)帶來(lái)的變革浪潮,并已在運(yùn)營(yíng)管理、客戶服務(wù)、解決方案創(chuàng)新等領(lǐng)域試水AI應(yīng)用,AIOps平臺(tái)則將匯付的系統(tǒng)穩(wěn)定性和IT運(yùn)維能力推向了next level。未來(lái),AIOps平臺(tái)將持續(xù)完善和迭代,深度融合AI技術(shù),強(qiáng)化與業(yè)務(wù)場(chǎng)景的連接,創(chuàng)造更大的價(jià)值。