當前位置: 妍妍網 > 碼農

一個參數留空,1250億美金蒸發9天!谷歌雲淡定回復:我們依舊是最穩定的雲

2024-05-31碼農

5月25日,谷歌雲針對本月初澳洲非營利性養老基金 UniSuper 故障事件釋出事後報告,事故原因為「 軟體工具中的一個參數留空,導致 UniSuper 的谷歌私有雲環境有效期為一年,所以該環境到期被自動刪除 」。

此前,UniSuper 基金的50多萬會員自5月2日起,一連九天無法存取該基金的線上服務,最終 UniSuper 透過其他雲服務廠商的備份重建線上服務。

故障發生後,谷歌雲發言人曾向媒體表示:「UniSuper 服務中斷是由於谷歌雲的一系列罕見問題造成的,這些問題導致 UniSuper 在配置私有雲時出現無意的錯誤配置,進而引發了一個之前未知的軟體漏洞,影響了 UniSuper 的輔助系統。」

與此同時,事故發生在 UniSuper 做出「將交付和資訊業務部門的職位外包」決定的第二周,因而故障披露初期,不少外國網友一度認為是外包的鍋。

UniSuper 使用谷歌雲的時間並不長。去年9月,UniSuper 將大部份業務(包括約1900個虛擬機器在內的所有非生產工作負載)從澳洲數據中心遷移到谷歌雲。

崩潰多日,只因為一個留空參數

在這份名為【分享最近影響我們客戶之一的事件詳情 (Sharing details on a recent incident impacting one of our customers) 】的官方報告,谷歌雲對 UniSuper 刪庫故障進行詳細解釋:

在使用內部工具為客戶首次部署 Google Cloud VMware Engine (GCVE) 私有雲時, Google 操作員無意中錯誤配置了 GCVE 服務,原因是將一個參數留空 。這導致了意想不到的、未知的後果,即預設客戶的 GCVE 私有雲為固定期限,並在該期限結束時自動刪除。事件觸發器和下遊系統行為均已得到糾正,以確保不會再次發生這種情況。

除此客戶的 GCVE 私有雲外,此事件未影響任何 Google Cloud 服務。其他客戶未受此事件影響。

谷歌自動刪除客戶資訊卻沒有通知?

谷歌雲表示,此次事件僅發生在 UniSuper 在兩個區域營運的一個 Google Cloud VMware Engine (GCVE) 私有雲中,同時,UniSuper 擁有多個私有雲。

由於特定的配置要求,設定由谷歌雲工程師自己使用不再使用的內部工具執行。

盡管谷歌雲表示「遵循內部控制協定」,但工程師「在使用內部工具配置客戶私有雲時,有一個輸入參數留空」。

「由於該參數為空白,系統為該參數分配了一個當時未知的預設固定一年期限值……系統指定的一年期限結束後,客戶的 GCVE 私有雲被刪除了。」

為什麽毫無通知就刪除了客戶的私有雲環境?

谷歌雲在官方公告中進一步解釋道,UniSuper 沒有收到刪除警告, 因為他們並未要求這樣做 。「沒有發送客戶通知,因為刪除是由於谷歌營運商使用內部工具時參數留空而觸發的,而不是由於客戶的刪除請求。」

「任何由客戶發起的刪除操作都會先通知客戶。」

之所以能夠恢復和重建已刪除的環境,是因為 UniSuper 擁有「強大而有彈性的架構方法來管理停機或故障風險」,包括使用「第三方備份軟體」。

「客戶的資訊長和技術團隊值得稱贊,他們與 Google Cloud 團隊密切合作,以速度和精度執行了全天候恢復。」

谷歌雲表示,它為 UniSuper 制作的額外備份也可以存取。同樣的事件已不再可能發生,部份原因是客戶現在可以自己進行更復雜的配置——如果環境被刪除,就會觸發警告。

此外,谷歌還「手動審查了所有 GCVE 私有雲,以確保其他 GCVE 部署不會面臨相同情況的風險」。

谷歌雲的故障補救措施包括:

  • 棄用了觸發此事件序列的內部工具。現在,此過程已完全自動化,並由客戶透過使用者介面進行控制,即使需要特定的容量管理也是如此。

  • 清理了系統資料庫並手動檢查了所有 GCVE 私有雲,以確保其他 GCVE 部署不受風險。

  • 修正了針對此類部署工作流程設定刪除 GCVE 私有雲的系統行為。

  • 世界上最具彈性和最穩定的雲基礎架構

    在官方公告的末尾,谷歌雲還對此次故障進行了總結:

  • 在此之前,Google Cloud 內部從未發生過此類事件。 這不是系統性問題

  • Google Cloud 服務擁有強大的保護措施,並根據需要結合了軟刪除、提前通知和人工介入等措施。

  • 我們已確認這些保障措施仍然有效。

  • 與客戶密切合作對於快速恢復至關重要。 客戶的 CIO 和技術團隊值得稱贊 ,他們與 Google Cloud 團隊密切合作,以快速和精確的方式執行了全天候恢復。

  • 具有故障保護功能的彈性而強大的風險管理對於在發生意外事件時快速恢復至關重要。

  • Google Cloud 繼續擁有 世界上最具彈性和最穩定 的雲基礎架構。盡管發生了這次 一次性事件 ,但我們的正常執行時間和彈性經過獨立驗證,在領先的雲中名列前茅。

  • 雲端儲存和備份,真的安全嗎?

    針對此次刪庫故障,網友也紛紛發表了自己的看法:

    Reddit 使用者 Ron0z:

    我一直不明白為什麽這麽多機構都使用雲端儲存。毫無疑問(原因)是成本問題,但數據儲存成本卻在逐年降低。在我看來,將數據發送給外部機構會使數據變得非常脆弱。將數據保存在內部並確保其安全。如果發生任何事情,你有自己的員工來處理問題。

    你不知道誰在檢視數據、復制數據或出售數據。而作為企業,你也不知道與你簽約儲存數據的公司最終是否會被賣給其他肆無忌憚的公司。

    Reddit 使用者 baezizbae:

    如果你沒有測試過你的備份,那麽實際上你沒有備份。

    (匿名網友回復)的確,不僅要檢查它們是否有效,還要真正檢查它們是否能正常工作。我曾經遇到過一種非常罕見的情況,資料庫備份似乎是有效的,它確實恢復了所有內容,而且一點問題都沒有。但是有一個表,如果我查詢一個特定記錄,就會出現非常討厭的錯誤,說數據無效。而在原始資料庫中進行同樣的查詢卻正確無誤,我一直沒弄明白是哪裏出了問題,也許是宇宙放射線吧……

    > > > >

    參考資料

  • https://www.itnews.com.au/news/unisupers-google-cloud-deletion-traced-to-blank-parameter-in-setup-608286

  • https://www.reddit.com/r/devops/comments/1co8qbi/google_cloud_accidentally_deletes_unisupers/

  • https://www.reddit.com/r/AusFinance/comments/1cibo5t/unisuper_down_for_3_days/

  • 編譯丨onehunnit

    *本文為dbaplus社群編譯整理,如需轉載請取得授權並標明出處! 歡迎廣大技術人員投稿,投稿信箱:[email protected]