當前位置: 妍妍網 > 碼農

算力受限困局如何突破?華為雲CloudMatrix讓雲化算力實作彎道超車!

2024-07-06碼農

在大模型成為新質生產力代表的今天,傳統算力架構局限性日益凸顯,成為制約AI潛能釋放的關鍵因素。再加上國外對中國算力供給側的限制,如何實作中國算力使用的高效與靈活,成為亟待解答的時代命題。

有這麽一家全球領先的雲服務提供商,正以其創新的CloudMatrix架構,透過全新的設計理念,匹配大規模的算力需求,為這場算力革命繪制出嶄新的藍圖。

想必大家好奇,中國的算力獲取困境能否靠架構創新打破?CloudMatrix是哪家廠商提出的?能為行業帶來哪些價值?該廠商的AI實力如何?今天我們一並揭曉。

01

破解算力獲取之困,

算力雲化大勢所趨

隨著大模型的興起,中國人工智慧發展進入加速期。根據【2023全球人工智慧創新指數報告】指出,中國AI的綜合水平保持在全球第二的水平,在人才培養和科研產出、產業發展等方面取得明顯進展,高層次人才數量與美國的差距逐漸縮小,頂會頂刊論文、高影響力人工智慧開源計畫等數量明顯上升,人工智慧企業數量和風險投資額保持全球第二。

人工智慧的發展離不開數據、演算法和算力三駕馬車,但獲取算力卻成了「攔路虎」。

  • 其一,大模型推理和訓練場景均需要大算力,例如大模型訓練往往需要數千張GPU卡,基於TB級別的數據,耗時幾個月進行訓練;

  • 其二,AI算力對數據中心要求極高,單機櫃功耗提升了6-8倍,還需要專用液冷系統散熱;

  • 其三,自建數據中心周期長、要求嚴苛、能耗高,難以滿足大模型時代快速訓練和叠代的要求。

  • 在此背景下,雲化算力應運而生。 雲化算力具有即開即用、按需使用、靈活部署、集群算力、專業服務、運維安全等六大主要優勢,成為大模型訓練、推理部署的必要基礎設施。根據相關數據顯示,AI算力已重度依賴雲化部署,2025年算力雲化的比例將達到80%。

    前段時間,筆者去參加了華為雲蕪湖數據中心開服儀式。華為輪值董事長徐直軍在儀式上指出,智慧時代獲取算力的最好的方式是雲服務,企業不必建設數據中心,可以聚焦自身業務發展。

    當前,擺在業界面前的問題是,如何讓雲化算力獲取效率更上一層樓?

    在近日舉辦的2024世界人工智慧大會上,華為常務董事、華為雲CEO張平安指出,華為正在透過「雲網端芯」架構上的協同創新,來構建永續發展的AI算力基礎,包括雲基礎設施系統架構創新、芯端算力上雲、面向AI的網路架構升級三大方面。

    以雲基礎設施為例,隨著人工智慧、大數據處理、高效能計算等多元化算力需求的急劇攀升,傳統以CPU為中心的主從架構面對的挑戰越來越大。

    首先,傳統架構難以高效支持異構算力排程,導致資源利用不充分;其次,傳統架構擴充套件性和靈活性受限,難以快速響應動態變化的計算任務需求;最後,傳統架構處理大規模平行計算和即時數據處理能力不足,影響AI模型訓練與推理效率。

    02

    下一代雲基礎設施CloudMatrix,

    開啟智算新紀元

    上述三大挑戰如何破解?華為雲推出了全新的CloudMatrix架構,以「一切可池化」「一切皆對等」「一切可組合」三大創新設計,從算力規模、擴充套件模式和使用模式上,匹配超大規模的算力訴求,透過技術創新來解決行業難題,讓雲化算力成為智慧時代最好的選擇。

    筆者在華為雲蕪湖數據中心開服儀式中了解到,CloudMatrix架構已在該數據中心率先套用。你是否好奇,新架構CloudMatrix能為破解算力之困帶來哪些突破?

    突破一:分布式QingTian,從主從架構到對等架構,打造算力形態躍遷。

    過去兩年大模型發展得如火如荼,大模型參數量增長11.2倍,但現存容量僅增長2倍。為了破解記憶體瓶頸,業界使用大量算力換取視訊記憶體容量,但NPU利用率僅有30%,十分低效。

    華為雲QingTian架構如何解決?QingTian架構把傳統的主從式架構升級為對等架構,提出「一切皆池化」的理念。「一切皆池化」也就意味著計算資源、儲存資源及網路資源被納入統一的資源池中,實作靈活管理和動態分配,從而提升資源利用率。

    QingTian架構帶來的效果也很顯著,它使得單節點算力提升50倍,資源碎片率降低至1%,NPU算力有效利用率提升到60%,大模型訓練效率提升68%。

    突破二:MatrixLink,從Scale Out到Scale UP+Scale Out。

    近年來,大模型運算需求呈指數級爆炸,運算量在過去兩年內劇增16.8倍,但GPU間的網路互聯頻寬增長僅提高了1.5倍,網路瓶頸凸顯。在矩陣算力的新紀元裏,傳統基於乙太網路的VPC網路架構已顯得力不從心,難以承載日益復雜的計算任務和數據流動需求。

    MatrixLinx網路正是為了突破網路瓶頸而生。MatrixLinx網路實作了算力資源的全面池化與對等互聯,還憑借自訂的矩陣拓撲結構和秒級的網路狀態感知能力,做到清晰感知資源位置、狀態以及網路抖動,將大模型訓練集群的線性度提升至95%,網路故障分鐘級恢復。

    更為關鍵的是,MatrixLink技術的融入,使得網路擴充套件模式由單純的Scale Out(橫向擴充套件)前進演化到Scale Up+Scale Out相結合。這不僅能讓大規模的模型訓練執行效率更高,還能靈活適配中小型推理套用,真正做到了「大有可為,小亦精妙」。

    突破三:瑤光智慧雲腦,從固定算力到可組合算力,打造算力使用模式躍遷。

    上述資源池化和高速網路互聯兩大技術突破,打通了資源的高速通道,同時也對大規模算力排程提出了嚴峻的挑戰,傳統伺服器粒度的粗放排程已無法滿足需求。

    基於此,華為雲推出了瑤光智慧雲腦,它能實作資源的按需組合,透過匹配最優算力組合,實作百億到萬億級模型訓練所需要的資源。同時,透過智慧排程,瑤光智慧雲腦能充分發揮算力價效比與資產最大價值。

    不僅如此,華為還在演算法能力上持續創新,透過XPU池化的切分復用,即將CPU、GPU等異構的計算資源精細化分割,讓同一XPU能服務於多個計算任務。這一創新將XPU的利用率從40%提升到80%,集群可用性提升至95%,這對於高算力需求場景尤為關鍵。

    CloudMatrix作為智慧時代算力領域的標誌性實踐,已經在三大領域展示出卓越貢獻。

    首先,在AI套用領域 ,CloudMatrix憑借靈活的Matrix檔位配置,輕松駕馭各類復雜大模型的訓練需求,相同硬體基礎設施上,能夠顯著提升訓練效率達68%,同時在AI模型推理(AII2AII)過程中,效率增長10倍,為深度學習和機器學習鋪設了堅實的算力基石。

    其次,在HPC(高效能計算)領域 ,針對包含400億單元的仿真案例,CloudMatrix透過最佳化的CFD(計算流體力學)負載排程,將原本需耗時兩個月的仿真時長壓縮至僅僅30小時,實作了效率50倍的飛躍,為科學研究與工程模擬開辟了前所未有的高速通道。

    最後,在通用計算場景中 ,CloudMatrix 方案在確保成本不變的前提下,將計算IO的極限效能提升8倍,彰顯了其對資源的極致利用,重新定義了雲端運算的價效比與服務邊界。

    除了在雲基礎設施領域的創新CloudMatrix,筆者關註到華為雲也在發力面向AI的網路架構升級以及芯端算力上雲這兩大領域。比如在芯端算力上雲方面,張平安介紹,華為雲創新的方向是將端側的AI算力需求,透過光纖和無線網路釋放到雲上,透過端雲協同獲得無縫的AI算力,大大釋放了對端側算力和功耗的壓力。

    落地情況如何?目前,華為雲已經在雲辦公、雲設計、雲拍照、雲手機、雲遊戲等方面進行端雲協同創新,將端側的AI算力需求透過光纖和無線網路釋放到雲上,既保持了豐富的功能,又降低了功耗以及對芯片的依賴,充分釋放AI價值。

    03

    華為雲AI全棧布局,

    做厚智慧時代黑土地

    管中窺豹,透過CloudMatrix架構創新,我們看到的是華為雲全棧的AI能力,包含盤古大模型、昇騰AI雲服務、分布式QingTian架構、AI-Native Storage和全球存算網等。

    「依托華為雲構築的全棧AI能力,透過全球存算網、昇騰AI雲服務、盤古大模型等創新技術,我們將為千行萬業創新發展註入數智活力,推動中國智慧產業蓬勃發展,加速培育具有創新性和競爭力的新質生產力。」張平安表示。

    本文將為大家著重介紹,華為雲在盤古大模型和昇騰AI雲服務方面的能力建樹。

    其一,華為雲盤古大模型,為行業「解難題,做難事」。

    堅持只做事,不作詩的華為雲,過去幾年一直在聚焦行業,加速千行萬業的智慧升級。截至目前,華為雲聯合數百家夥伴與客戶,共同構築了30多個行業大模型,以及400多個AI套用場景,已在金融、政務、制造、礦山、汽車、醫學、氣象等10+行業領域落地。

    以鋼鐵行業為例,目前盤古大模型已上線寶鋼的熱軋生產線,實作精軋寬展預測精度較傳統模型提升了5%以上,每年有望多生產2萬噸鋼板,增收9000多萬元。值得一提的是,基於盤古大模型的鋼鐵行業AI套用解決方案入圍了WAIC 2024的卓越人工智慧引領者獎,受到業界高度認可。

    此外,近日華為雲盤古大模型升級到5.0版本,在「全系列、多模態、強思維」三個方面迎來全新升級,加入了不同參數規格的模型、能夠更好更精準地理解物理世界、復雜邏輯推理更強,不僅拓寬了AI技術的套用邊界,還提升了跨領域協同作業的能力。

    其二,昇騰AI雲服務,提供即開即用的6A級澎湃算力。

    為了更好使能「百模千態」套用快速落地,華為雲在貴安、烏蘭察布、蕪湖、香港部署了四大AI雲算力中心,基於華為AI軟硬體技術全棧,打造一站式、全場景、全流程AI套用開發及執行管理平台,對外提供高價效比、即開即用的澎湃AI算力服務——昇騰雲服務。

    對於企業來說,以後無需自建或改造傳統數據中心,無需投資通用的AI技術,也能輕松獲取高效AI算力。同時,昇騰雲還實作了千卡訓練連續30天不中斷,任務恢復時長小於30分鐘,為大模型和AI套用的開發、執行、運維提供6A級雲化算力底座。

    目前,華為雲已經攜手奇瑞、科大訊飛、信義玻璃等企業,打造了領先的「AI+」套用標桿。合作夥伴對華為雲如何評價?「中國的產業界非常自豪,華為能夠在真正的硬科技算力層面上給世界第二種選擇。現在業界能夠量產做大模型訓練,除了輝達只有華為一家,在推理上已經做到完全對標輝達。」科大訊飛董事長劉慶峰表示。

    筆者觀察:

    華為雲成AI時代領導者

    40多年前,系統工程中國學派的創立,是錢學森為人類永續發展找到的「金鑰匙」。時至今日,華為雲的CloudMatrix架構創新,則為中國AI的發展註入了強大的「算力心臟」。

    CloudMatrix不僅重塑了雲端運算基礎設施的格局,以對等架構和一切皆池化的前瞻設計,能夠打破中國算力供給的桎梏,並且透過智慧排程與極致最佳化,將算力運用效率推向新高峰。

    誌之所趨,無遠弗屆,窮山距海,不能限也。可以預見的是,站在CloudMatrix身後的華為雲,將持續深入行業解難題、做難事,重塑千行萬業。

    點選下方名片,關註我們

    【海峰看科技】側重科技通訊技術和產業分析,定位解讀延伸,深度思考。

    【黃海峰的通訊生活 】側重科技通訊資訊和數位產品體驗,定位快速、有趣。

    往期推薦

  • 黃海峰,獨立科技評論員,多次接受央視、環球時報、科技日報采訪。

  • ICT行業雜誌前副主編,從業十多年,聚焦5G、手機、IoT、光、雲、AI、互聯網等。

  • 每年與超100位科技行業企業 CXO /VP/總監面對面交流。

  • 多年度【中國資訊通訊行業發展報告】特約撰稿人。

  • 獲十大通訊行業自媒體、IT科技十佳創作者稱號。

  • 覆蓋今日頭條、百度、新華、人民、搜狐、鳳凰、新浪、網易、知乎、騰訊、一點、微博等。

  • 微訊號:174455367