當前位置: 妍妍網 > 碼農

銀行分布式開放平台的監控及應急體系建設實踐

2024-04-22碼農

人民銀行【金融科技發展規劃(2022-2025年)】中提出要「持續推動金融創新,助力金融業數位化轉型」。為貫徹落實人民銀行數位化轉型的要求,中國工商銀行(以下簡稱「工行」)作為帳戶體量最大的商業銀行,積極開展了從傳統集中式架構向自主可控分布式開放平台架構的轉型,實作金融科技供給能力和創新效能的有效提升。

為實作平穩轉型,工行采取「分布式開放平台組合服務入口建設->渠道/產品套用改造->渠道/產品套用切換->平台元件功能建設->雙機並列(以原系統為準)->雙機並列(以平台為準)」六步工程實施工藝,順利完成了大部份套用向分布式開放平台的轉型。

在轉型過程中,為確保業務處理的連續性和系統穩定性工行透過監控應急體系的建設,有力保障了工程的平穩推進。以下為具體內容:

一、智慧監控助力轉型過程及時發現問題

分布式系統具有擴充套件能力強的特點,可滿足高並行、大流量需求。但由於分布式系統節點數量多,與集中式系統相比維護相對困難,且分布式場景下業務呼叫鏈路變得越來越復雜,一筆業務請求往往需要經過多次呼叫才能完成。因此,為保障轉型平穩推進,在轉型過程中及轉型後,需完善對系統及交易的監控。在此背景下,功能強大的全像監控平台及業務監控系統應運而生。

1.全像監控

由於呼叫關系的復雜性,呼叫鏈路中某個環節的不穩定,很可能導致系統性風險。傳統集中式架構的監控、治理模型,難以滿足分布式體系下套用節點高可用保障方面的要求。全像監控平台憑借以下能力,可很好地應對該問題。

1)鏈路資訊追蹤: 支持跨套用、跨平台的交易級細粒度鏈路監控,從鏈路采集的數據可用於鏈路追蹤,同時透過鏈路維度的資訊關聯,形成系統行為與日誌和效能的對映,構建自助分析體系,助力故障快速診斷,如圖1所示。

圖1 鏈路資訊追蹤

根據鏈路資訊,可快速定位該筆服務處理流程中的異常節點(如圖2所示),並透過詳情檢視、JVM監控、雲資源監控等獲取節點IP、資源情況、報錯詳情等。

圖2 根據鏈路資訊快速定位某筆服務處理流程中的異常節點示意

2)交易資源監控: 具備多維度監控檢視(如圖3所示),可按園區/單元、套用、群組、服務、例項等維度監控交易量、技術/業務交易狀態、響應時間、上下遊依賴等。

圖3 交易資源監控示意

3)節點資源監控: 可即時監控作業系統負載、CPU使用率、記憶體使用率、網路頻寬、網路連線數、JVM堆記憶體、GC等多個節點資源指標,如圖4所示。

圖4 節點資源監控

4)服務報警推播及查詢: 對於服務呼叫異常的資訊,包括超時、失敗率、執行緒池、沒有提供者和限流異常等,可透過簡訊等方式自動報警至相關關系人,並支持快速匯出相關異常資訊、檢視報警時點前後時段的報警統計情況等,以輔助快速定位問題,如圖5所示。

圖5 服務報警推播及查詢

基於全像監控的強大監控功能,並輔之以聯動自動報警功能,能夠迅速發現問題、定位故障並降低問題影響,維護生產穩定執行。

2.業務監控

對機器資源、交易量、交易鏈路等進行視覺化監控後,因效能容量引起的系統異常能快速定位、快速應急。至於轉型切換過程中、轉型後的服務維度的成功率、異常報錯等,則可根據套用實際情況進行個人化業務監控。

1)生死指標監控: 基於套用監控系統,各套用可根據自身特點進行個人化監控,把核心重點交易及系統整體的相關指標設為生死指標,並在服務異常時透過簡訊等方式自動報警,如圖6所示。

6 生死指標監控示意

2)個人化生產執行監控: 對於業務長時間未閉環、批次處理超時等有時效性要求的場景,可根據生產實際需要部署針對性監控,當超過報警閾值時自動簡訊報警給相關人員及時介入,保障業務時效性要求,如圖7所示。

圖7 個人化生產執行監控示意

3)服務報錯偏離度監控: 基於服務提供方按規範對每筆交易記錄的資訊,在服務切換後,支持按「服務名+方法名+錯誤碼」等維度部署監控,並對錯誤增長情況進行自動比較,以盡快發現服務異常和迅速應急,如圖8所示。

圖8 服務報錯偏離度監控示意

二、智慧應急助力轉型過程及時解決問題

基於智慧監控,分布式開放平台可迅速發現系統異常、業務處理異常。而在解決問題方面,工行透過針對異常場景的應急能力建設,確保發現問題後能夠高效、有序地進行應急處理。

1.轉型過程中新舊系統切換應急開關建設

基於六步工程實施工藝的轉型思路,工行對新舊系統切換過程進行沙盤推演,對可能遇到的問題在設計時即預先考慮增加相應開關,精心設計了渠道/產品套用開關、轉型套用開關,當切換過程中出現異常時可一鍵回切。

1)渠道/產品套用開關: 由渠道/產品套用進行部署和維護。渠道/產品套用根據自身交易場景進行開關配置,透過該開關完成分布式開放平台服務和原系統服務之間的切換,保證各渠道交易平穩接入到平台服務,實作轉型路徑解耦。切換過程中的應急預案由渠道/產品套用組織建設,應急時可以快速回切原系統的服務以恢復交易。

2)轉型套用開關: 由轉型套用和相關配合產品套用分別部署和維護(如圖9所示)。轉型套用完成套用元件功能建設,並根據自身服務配置,透過該開關完成「新舊系統雙寫」、「僅處理平台新系統」等功能的切換,確保原系統服務的功能平穩遷移至平台服務。切換應急預案主要由轉型套用組織建設,故障時可以快速回切原系統的服務以恢復業務。

圖9 轉型套用開關示意

2.轉型套用自身異常的應急建設

對於轉型套用自身可能遇到的異常場景,工行也針對性進行了應急能力建設。

1)套用容器、資料庫單園區接管 :當套用容器/資料庫出現單園區故障或演練時,運維人員可透過一鍵式切換工具,將套用容器/資料庫切換到單園區執行,由單園區承載所有業務處理,保障業務連續性。

2)限流、熔斷、阻斷: 建設具備流量防護功能的限流中心,當套用服務請求流量達到預定閾值時,對超過閾值的流量自動限流使交易快速閉環;當連續存取超時或存取報錯且達到預定閾值時,自動斷開對當前服務資源的存取,並在一定時間後再嘗試恢復存取;當需要人工介入時,運維人員可對指定服務資源進行一鍵關閉處理。透過以上機制,可避免流量過載導致套用系統雪崩的風險。

3)灰度釋出一鍵調整: 獨立部署物理灰度節點,投產後部份流量引流到灰度容器,部份流量流入正常節點並保持投產前的處理邏輯。當灰度試點階段發現系統級故障,可啟動灰度釋出一鍵調整流程,關閉灰度總開關或下線灰度容器;當灰度試點階段發現個別服務處理異常,可啟動一鍵調整灰度服務範圍的流程。透過灰度釋出一鍵調整流程,能夠提高生產穩定性和業務處理連續性。

4)數據調整: 對因程式處理存在缺陷等原因導致的數據不一致,支持送出指定作業對數據進行一鍵調整,及時規避因數據不一致導致的交易異常(如圖10所示)。

圖10 數據調整示意

在轉型套用自身異常應急能力的落地層面,透過提前部署針對性的流程策略,支持在發生異常後透過一鍵調整實作快速應急,如圖11所示。

圖11 異常發生後一鍵調整實作快速應急示意

三、分布式開放平台轉型成果

基於完備的智慧監控和應急體系設計,工行已在六步工程實施工藝指引下實作了原系統到分布式開放平台的平穩轉型,大部份業務已在全技術棧安全可控的分布式架構上全天候(7×24小時)獨立執行,取得了分布式開放平台自主可控這一銀行業「卡脖子」技術攻關工程的關鍵突破,是我行深入貫徹國家科技強國和創新驅動發展戰略,在金融領域實作金融科技關鍵技術自主可控的重要實踐,也是踐行「以人民為中心」發展思想的創新之舉。



作者丨中國工商銀行軟體開發中心廣州開發三部 何麗君

來源丨公眾號:BanTech智庫(ID:BanTech_Research)

dbaplus社群歡迎廣大技術人員投稿,投稿信箱: [email protected]

活動推薦

2024 XCOPS智慧運維管理人年會·廣州站將於5月24日舉辦 ,深究大模型、AI Agent等新興技術如何落地於運維領域,賦能企業智慧運維水平提升,構建全面運維自治能力! 碼上報名,享早鳥優惠。