當前位置: 妍妍網 > 碼農

分布式轉型時期,日誌分析難題如何應對?

2024-04-24碼農

以下場景,您曾經歷過嗎?

  • 作為 試人員 ,您負責測試的服務內部丟擲異常,想要獲取具體套用日誌卻懊惱於不知應下載哪個服務層、哪個容器的日誌;服務鏈路的下遊套用報錯了,您卻只能等待著協調下遊開發人員配合分析給出結論……

  • 作為 境經理 ,您肩挑維護測試環境穩定可用的重擔,在面對簡短的有頭無尾的報錯日誌時,想要分析根因卻無從下手,導致無法快速定位問題;在面對不同套用不同服務差異化的異常資訊返回片段,沒能形成可復用的經驗,常在重復問題上重復投入精力……

  • 作為 開發 人員 ,您的程式碼在本地正常執行,但在測試環境偶爾丟擲程式異常卻未能及時獲知潛藏的程式執行隱患……

  • 如果您曾有過上述類似經歷感受,表示您也曾因為苦於異常日誌的定位難、分析難,讓其成為問題解決之路上的「攔路虎」。

    從根源上分析,正是因為套用系統在分布式轉型後續的復雜度提高,規模膨脹,日誌分布隨之變得復雜,日誌數據量也不斷攀升,而且分布式體系下涉及的技術棧種類豐富,導致日誌數據存在多種格式和來源,致使人工甄別、跟蹤成本飆升,所以在進行問題分析時需要更多考慮節點分散部署的特征、日誌聚合分析以及問題分析時效的要求,需要仔細思考如何將日誌數據視覺化,解決套用在分布式轉型後問題排查的困擾。

    一、驅虎之道

    隨著分布式、雲端運算和大數據等技術的發展和套用,企業的IT系統變得越來越復雜和龐大,傳統運維模式已難以解決日趨復雜的運維挑戰。與此同時,人工智慧技術發展迅速、技術成熟度不斷提高。在此背景下,AIOps應運而生,旨在透過人工智慧技術實作自動化監控、診斷和預測,減少人工幹預,從而提高IT套用系統運維效率和品質,AIOps逐漸成為未來運維發展的趨勢之一。運維發展歷程如圖1所示。

    圖1 運維發展歷程示意

    2022年6月,中國信通院釋出了【雲端運算智慧化運維(AIOps)能力成熟度模型 第1部份:通用能力要求】,從感知、分析、決策、執行、知識更新五個維度將智慧運維能力劃分為5個級別,如圖2所示。

    圖2 智慧運維5個級別示意

    考慮到套用日誌分析涉及到收集、處理和分析程式產生的日誌檔數據,以了解系統效能、診斷問題並改進系統,是運維領域的一個重要任務,可參考智慧化運維程度的梯度能力建設方法理念,建設一套適配於套用日誌分析領域的智慧化運維流程策略,對標L4全面智慧化運維能力探索實作從感知到執行階段的能力建設,如圖3所示。

    圖3 全面智慧化運維能力建設示意

    於是,研發環境運維團隊將原有日誌異常排查場景下的人工排查經驗,結合智慧化的建設思路將其固化為數位流程和模型參數形式的數位資產,並基於測試環境中海量的日誌報文數據開展了首次實踐並取得了較好的實踐效果。

    二、技術實踐

    基於文本聚類和RNN迴圈神經網路模型演算法等人工智慧新技術運用,形成「環境問題智慧分類」,快速自動反饋環境可用情況,快速定位環境問題並配套智慧診斷和自愈,實作研發質效提升。

    該實踐與業界通用實踐相比,主要創新點體現在以下幾個方面:

    1. 異常資訊聚合提取

    如何從形式各異的文本資訊中捕獲異常資訊是一個難點,可透過對報文路徑進行聚合,實作錯誤碼和錯誤日誌的準確匹配,如圖4所示。

    圖4 異常資訊聚合提取示意

    2. 詞向量去噪生成

    針對日誌文本詞匯量無窮的問題,文本雜訊過多,導致異常分類特征在整個文本中過於分散,模型不易收斂且易產生過擬合問題,因此對特征工程進行最佳化提取,能夠有效將日誌中無限的詞匯量轉換為有限維詞向量,便於輸入智慧模型進行訓練,如圖5所示。

    圖5 詞向量去噪生成示意

    3. 運用RNN迴圈神經網路模型演算法

    訓練標準標簽庫實作異常定位智慧分類推薦標簽。智慧分析後,對於結論為套用節點技術棧狀態檢測異常的數據,觸發技術棧檢查及自愈機制,其他對接智慧診斷庫精準推播各角色處理,如圖6所示。

    圖6 RNN迴圈神經網路模型演算法示意

    三、實踐效果

    1. 智慧異常定位促進降本增效

    釋放測試環境維護人員原本需要逐條判斷異常日誌型別相關工作,而現在90%異常問題可透過上述方式自動化處理。同時隨著人工標註數據不斷增加,後續模型準確性也將逐步提升,實作了將人工運維經驗沈澱為數位化資產(如圖7所示),進一步促進運維領域數位化轉型。

    圖7 將人工運維經驗沈澱為數位化資產示意

    2. 明確異常問題分布,輔助系統最佳化決策

    在以往的測試環境問題運維過程中,由於異常問題跟進主要由人工執行,執行後難以對問題診斷過程和結果進行記錄,使得管理者難以從宏觀視角把握目前環境問題中各問題的分類占比。而透過智慧分類後,大部份異常問題能夠透過智慧系統自動分類,使得各時段可用率情況(如圖8所示)、不可用情況型別占比等資訊更容易采集統計,對後續環境問題治理提供有效支撐。

    圖8 智慧系統自動分類得出的各時段可用率情況示意

    作者丨中國工商銀行軟體開發中心廣州技術部

    來源丨公眾號:BanTech智庫(ID:BanTech_Research)

    dbaplus社群歡迎廣大技術人員投稿,投稿信箱: [email protected]

    活動推薦

    2024 XCOPS智慧運維管理人年會·廣州站將於5月24日舉辦 ,深究大模型、AI Agent等新興技術如何落地於運維領域,賦能企業智慧運維水平提升,構建全面運維自治能力! 碼上報名,享早鳥優惠。