一文讀懂多家廠商的大模型訓練、推理、部署策略

2024-05-12碼農

4 月 20 日，第 102 期源創會在武漢成功舉辦。

本期邀請來自武漢人工智慧研究院、華為、MindSpore、京東雲、Gitee AI 的人工智慧專家，圍繞【大模型競技與效能最佳化】主題發表演講。

接下來就一起看看本期活動的精彩瞬間吧！

大合影 get ✅

披薩和禮物不能少！

接下來進入主題演講回顧環節。可掃描下方二維碼、關註「OSC 開源社群」視訊號，進入「直播回放」頁面檢視完整視訊回顧：

劉昊：大模型分析與趨勢展望

武漢人工智慧研究院創投轉化部總監劉昊帶來了【大模型分析與趨勢展望】主題分享。劉昊所在的武漢人工智慧研究院早在 2020 年便開始研究大模型技術，2021 年 7 月釋出全球對外釋出了全球第一個千億參數、覆蓋影像、文本、語音的三模態大模型。

劉昊指出，在早前的人工智慧技術研究中，存在三大問題，一是泛化能力很差，只能解決相似問題；二是模型能力單一，不能解決富文本，或者需要整合多個模型；三是過去一段時間，對數據標註的需求量有點過大了。而大模型恰好可以從這三個方面去解決問題，尤其是在 ChatGPT 出現之後。ChatGPT 的成功代表了人工智慧很多的下遊任務或是下遊模型，可以進入流水線式的生，開啟了一個人工智慧產品化的時代，讓技術人員可以去專註於做底座模型，頁讓更多人可以參與到人工智慧行業中。

此外，大模型催發了儲存、算力、運力等多個環節的拉動，透過大模型把很多上下遊的產業串到了一起。

從技術上來說，國內外許多大模型本質上還是沿用之前的 MoE 架構，但大模型做了一次很好的工程化和產品化改造。在模型參數超過 660 億之後，人工智慧中的不可解釋性變強，包括能力湧現看起來也是不可解釋的。劉昊認為，OpenAI 用了什麽方式使得 ChatGPT 的效果這麽好，目前還是一個黑盒，但已為知識統一表征和推理、世界認知和建模等問題探索出了一條道路。

大模型既改變了研究模式，也改變了服務與開發模式。比如很多公司開始退訂大模型的顯卡，停止大模型的開發。最終行業內可能僅存幾家大模型工作做底座大模型，而更多的則是行業專業。這也意味著大模型已經進入到了工業化生產的階段，大模型之上將會形成很多的工具。

目前，紫東太初 2.0 已經升級為全模態大模型，加入三位點雲等資訊模態。同時，武漢人工智慧研究院也建設了全棧國產化人工智慧開放服務平台，把大模型當作底座，部署一站式平台，采用算力 + 平台的新模式，一方面用底座微調數據，一方面可以把平台和算力無縫結合。目前已在全國落地多個 AICC，完成全棧國產化適配，利用高效能普惠算力，深入融合行業場景，加速大模型套用賦能千行百業。

最後，劉昊也給出了他對大模型發展趨勢的 4 大判斷：

趨勢一：資訊科技套用和創新生態發生巨變，如透過不斷餵養數據完成各種智慧活動，套用開發進入自然語言編程模式等；

趨勢二：重塑再造決策智慧的範式，如人機對齊輔助決策；

趨勢三：向小型化和領域化方向發展，在通用認知 AI 基礎上邁向專業人工智慧；

趨勢四：奔向更加通用的人工智慧，如大模型與人形機器人互動。

掃碼觀看【大模型分析與趨勢展望】演講回放 ⬇️

李樹橋：大模型最佳化技術在昇騰上的套用與落地

華為軟體工程師李樹橋帶來【大模型最佳化技術在昇騰上的套用與落地】主題演講，從三方面介紹了昇騰在大模型算力方面的特性，包括開源加速庫昇騰原生支持、昇騰自研大模型最佳化技術、以及基於雲原生的生產落地。

首先對於各種開源庫的支持，涵蓋第三方模型、第三方 AI 框架、第三方加速庫、第三方推理服務四大方面。比如對於 Pytorch & Torch NPU 的支持，Pytorch 是一款 AI 框架，可分為兩大整體，上層是 Pytorch 部份，下層是 Torch NPU。在上層，昇騰透過註冊方式，將原生算子和自訂算子註冊到 PyTorch，使得 PyTorch 可以在昇騰中有執行，對於下層的 Torch NPU，透過開源貢獻，最佳化 checkpoint、FSDP、Dataloader 等模組的多裝置支持能力，實作原生支持 NPU。

此外，昇騰也支持了 onnxRuntime 通用模型框架。包括 Pytorch、TensorFlow、MindSpore 等在內的不同框架可以保存成 onnx 的格式，onnxRuntime 可以去執行呼叫統一格式。昇騰的原生支持已經支持了 onnxRuntime 庫，使得在對接多框架以及易用性上有很大的便利。

模型壓縮方面，DeepSpeed 可對大模型進行壓縮，讓其可以更好地部署執行，目前也實作了昇騰的原生支持。

對於提供影像處理，機器學習，視訊分析等功能的電腦視覺庫 OpenCV。昇騰實作後端支持，提供昇騰 NPU 數據結構 AscendMat 和 18 個高頻介面，並且多數算子效能提升 30%。

程式碼遷移方面。基於 Pytorch 和 TorchNPU，實作了 OpenCLIP 對昇騰的原生支持。可以實作 3 行程式碼將模型遷移至昇騰裝置。

其次在昇騰自研大模型最佳化技術方面。昇騰自研 AscendSpeed 大模型加速庫。大模型訓練是一種非常復雜的過程，涉及到許多技術和挑戰，其中大模型訓練需要大量的視訊記憶體資源是一個難題，對計算卡提出了不小的挑戰。為了在單個計算卡視訊記憶體資源不足時，可以透過多張計算卡進行計算，業界出現了類似 Megatron、DeepSpeed 等第三方大模型加速庫，對模型、輸入數據等進行切分並分配到不同的計算卡上，最後在透過集合通訊對結果進行匯總。昇騰提供 AscendSpeed 加速庫，使能客戶大模型業務快速遷移至昇騰裝置，並且支持昇騰專有演算法，確保開箱可用。

昇騰還提供了一套比較完善的工具鏈 AIT（Ascend Inference Tools），做為統一推理工具鏈入口，提供客戶一體化開發工具，支持一站式偵錯調優。

最後，在基於雲原生的生產落地方面。K8S volcano 排程器支持昇騰裝置的親和性排程。此外 Kubernetes 昇騰裝置外掛程式 Kubernetes Device Plugin 可以將其發現的裝置個數上報到 Kubernetes 系統中，當裝置處於不健康狀態時，上報到 Kubernetes 系統中並刪除，裝置故障後會自動拉起新容器，掛載健康裝置，並重建訓練任務。當下，Vicuna 昇騰原生支持的 Space 後端已經使用了 Kubernetes Device Plugin。

掃碼觀看【大模型最佳化技術在昇騰上的套用與落地】演講回放 ⬇️

袁黎江：智啟未來 —— 言犀大模型平台

京東雲產品總監袁黎江發表了【智啟未來 —— 言犀大模型平台】主題演講。袁黎江介紹，大模型企業級落地有 5 大挑戰：即時性、可解釋性、安全可控、復雜決策、專業性，而落地的關鍵是在不確定和動態變化的環境中如何即時作出正確決策並執行。

袁黎江介紹，大模型落地的方式主要有 2 種，一種是 Copilot 的模式，互動關系以人為主導，AI 只是作為一個助手，在某些場景中由 AI 來完成工作，如比如文字內容生成、加工，文生圖等。實際上對於企業而言，需要盡可能釋放人力。另一種是 Agent 模式，則更適合企業中的復雜場景，這種模式下人類站在更高維的角度，作為人工智慧的「導師」或「教練」角色，設定目標並監督結果，由大模型去發揮推理能力，呼叫合適的工具和借口，最後給到相應的結果反饋。

大模型在企業中落地所依賴的主要技術也發生了變化，最初的 Pre-train 成本最高、投入巨大；之後 SFT 模式成本降低但是落地效果欠佳；基於向量資料庫的檢索增強 RAG 模式，效果提升但僅能局限在知識問答場景中；最終，精通技術團隊更加關註 Agent 模式，可以實作多場景支持。

在京東金融業務中，單純靠大模型 SFT 或者 LoRA 難以提升大模型解決實際問題的能力，而是基於 Agent 技術實作機器使用工具解決業務問題。具體而言是透過 Agent 的方式去理解使用者目標，拆解每一步子任務，在每一步子任務裏選擇合適的工具，這些工具是京東原有業務的一些介面，最後再結合大模型能力給出反饋。這樣對於一些使用者復雜問題的回答則會更精準。

目前，京東言犀大模型全平台已經構建了多層產品矩陣。最底層為資源支持，包括計算資源、儲存資源、高速網路和資源排程。在模型資源層，提供了模型管理訓練、數據集加工、模型評測部署等能力。模型資源層之上為智慧體構建，關註各類工具的整合。最上層則是套用服務層，適配多個企業場景。

京東言犀大模型全平台具備 6 大功能：資源排程協同，可實作計算資源的高效管理和排程，確保大模型開發及套用的效能最佳化和成本控制；數據管理，針對大模型訓練提供管理，支撐預訓練、微調、強化學習、評測等高效開展；模型訓練，透過大模型進行訓練和微調讓企業擁有客製化模型，提高準確性和相關性；智慧體構建，助力企業建立和部署智慧體 Agent，與企業現有 IT 系統結合執行復雜任務；安全合規，確保所有大模型套用都符合安全標準和法律法規要求；智慧套用市場，提供一系列預構建的大模型套用，企業可以直接部署或給予外掛程式體系快速接入。

掃碼觀看【智啟未來 —— 言犀大模型平台】演講回放 ⬇️

林家楨：大模型 Serverless 推理系統

當下，一些模型方或是平台方會為個人使用者提供一些免費的算力用於使用大模型技術，Gitee.AI 作為大模型聚合平台也在為個人使用者提供免費算力。Gitee AI 專家顧問、清華大學高效能計算所林家楨帶來【大模型 Serverless 推理系統】主題演講。

林家楨指出，Gitee.AI 目前聚合了 2000 多個模型，但免費的算力資源有限，因此就需要更加高效地將這些免費算力按需分配給開發者使用，這在當下是一個非常有挑戰性的問題。比如以往使用容器技術做外部開發時，單個容器的換入換出以及喚醒都非常迅速，但是這在大模型時代變難了，模型的喚醒和休眠導致容器的換入換出管理難以同以往的場景一樣高效。

而 Serverless AI 具備 4 大優勢，包括部署簡單、開箱即用，降低算力使用成本，覆蓋主流模型，支持多種算力硬體。目前的模型引擎或者說購買、使用算力的方式存在一個問題，即使用者程式、模型、推理的芯片全都綁在一個容器上，占住硬體芯片，使用算力服務。而 Serverless 推理引擎整合最佳化算力資源，透過多個層級的解聚合，降低套用、模型、算力三者間的耦合性，按需分配算力，提高資源利用率。

Serverless 系統架構分為三層，最底層為編譯器層，將在容器中載入模型改為 rpc 呼叫到遠端服務的模式，介面沒有改變，但是換成了後端的推理，以實作模型和芯片的解聚合。rpc 給到上一層的推理引擎，推理引擎是實際上發生計算的集群，這個層級則做了數據和算力解聚合。比如假設一個十張卡滿足 3000 個模型的排程請求的任務場景，這時沒辦法在一張卡上固定載入某個大模型，便需要根據請求臨時動態高效載入想要的模型，因此把計算的芯片和模型權重做解聚合，模型放在 TanserGraph 上，這是一個異構的記憶體系統，可支撐實作算力芯片和模型解聚合。在最上層，Serverless 層，則進行套用和推理解聚合。

Serverless 系統架構的核心能力是異構互聯記憶體，解決模型權重問題。數據中心整機架構存在一些局限性，如資源利用率低、硬體擴充套件性受限等，解聚合技術可以將整機架構中各部件物理分離，使用一定互聯連結各部件的控制界面（Control Plane）與數據界面（Data Plane），實作各類資源按需分配、擴容。此外，記憶體解聚合在雲場景下也具備套用優勢，包括提高雲環境資源利用率和便於滿足日益增長的記憶體資源需求。

但現有分層記憶體系統不適應解聚合架構下的高硬體彈性，系統擴充套件性也受限，並且由於系統內部結構限制，現有記憶體管理介面能力受限。異構互聯記憶體則可以透過硬體存取統計、可編程策略、頁遷移三個環節解決這些問題。以 CPU 為例，對於基於 PEBs 的存取統計上，支持硬體采集運行程式的訪存情況，記錄指令、TID、目的地址等，然後按需載入模型權重。

此外，Serverless 系統架構也具備了其他多種能力，如基於 MLIR 的多層次神經網路編譯最佳化技術，基於使用者態隔離技術的輕量化系統服務機制。Serverless 推理引擎基於兩大核心智慧財產權技術構建，除此之外也整合了目前各類主流的推理系統最佳化技術。

目前，Llama 3 已經上線 Gitee AI。復制下方連結至瀏覽器，進入平台即可體驗（邀請碼：llama3）：

https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat

掃碼觀看【大模型 Serverless 推理系統】演講回放⬇️

陳子恒：昇思 MindSpore 大模型關鍵技術與規劃

MindSpore Research Engineer 陳子恒帶來【昇思 MindSpore 大模型關鍵技術與規劃】主題演講。陳子恒介紹，在行業中，MindSpore 介於底層芯片硬體與上層行業套用之間。MindSpore 在大模型技術方面，首先做的是基礎層，覆蓋了多個底層大模型，在上層則是與行業夥伴構建行業模型。此外，MindSpore 也相容了國內外多款主流的開源大模型。針對所有大模型，MindSpore 透過 MindFormers、MindPET、MindRLHF 三個基礎套件，統一大模型開發、微調和部署等全流程，實作開箱即用。

針對大模型訓練。MindSpore 采用的是基於計算圖的編譯器來實作並列策略。輸入一張計算圖，MindSpore 的圖編譯過程會將圖按照並列策略進行切分，並在其中自動插入數據的重排算子，來保障多機的平行計算邏輯與單機一致。透過這種方式，MindSpore 實作了多個層次的最佳化，包括頂層的自動策略生成，多維度的混合並列，以及在執行時支持多維儲存和異構的最佳化。

從去年開始，MindSpore 團隊也一直在做大模型的並列訓練。通常情況下，典型的大模型訓練會混合使用 5 種並列策略，包括數據並列、最佳化器並列、模型並列、流水並列、重計算。MindSpore 團隊分析了典型模型在這些並列模式下的耗時情況，發現這裏的主要開銷在三個方面，包括算子級模型並列的開銷、pipeline 並列產生的 bubble、數據並列的拖尾時間。並且當集群規模不斷增大，到萬卡集群的時候，這些開銷的問題會更明顯，例如由於 global batchsize 的受限，pipeline 的 bubble 問題會更嚴重，並且由於通訊域增大，通訊效能會劣化，數據並列的拖尾占比會升高。

對於這些問題，陳子恒也介紹了一些解決方法，比如多副本並列模式隱藏模型通訊，將數據一分為二，每個數據可以獨立的進行計算和通訊，而多份數據之間的計算和通訊就可以相互隱藏了，以此最佳化算子級模型並列。對於 PipeLine 並列最佳化，透過 PipeLine Interleave 把 Bubble 降低到 10% 以。

此外針對 MoE 訓練時會遇到冷熱專家的問題，對於專家熱遷移，降低 AlltoAll 通訊量，提升 MoE 模型訓練效能。除了高效能訓練，大模型還有一個問題是怎麽做策略並列，MindSpore 采取的是自動並列，大模型並列策略調優時間月級可以降為小時級。

部署方面，MindSpore 相當於是 severless 的後端，需要解決的是效能問題。MindSpore 透過分布式並列推理、K-V Cache、動態 seq、continue batch、高效能推理融合算子，構建低時延、高吞吐、支持長序列大模型統一推理框架。訓推一體架構，使得訓練到推理無縫銜接。

接下來，MindSpore 在大模型訓練方面的規劃涵蓋萬卡大集群訓練效能最佳化、稠密大模型效能最佳化、稀疏 MoE 大模型效能最佳化等方面，在大模型推理方面計劃更加深入研究大模型訓推一體架構、稠密大模型推理加速、稀疏大模型推理加速等。

掃碼觀看【昇思 MindSpore 大模型關鍵技術與規劃】演講回放 ⬇️

本期活動回顧就到這裏啦~

103 期源創會火熱報名中！

【大模型技術在終端】・深圳站

詳情存取下方連結，或點選「閱讀原文」
https://www.oschina.net/event/2332004

END