103期源創會・深圳站活動回顧

2024-06-07碼農

5 月 26 日，第 103 期源創會在深圳成功舉辦。

本期邀請來自昇思 MindSpore、科大訊飛、Gitee AI、IDEA 的技術大咖們發表主題演講。接下來一起看看活動的精彩瞬間吧！

前方多圖預警 >>>

滿載而歸了嗎朋友們（ps：感謝機械工業出版社和異步圖書贊助的圖書

現場互動氛圍超好 der～（是的沒錯，你也可以直接沖到台上和講師面對面聊

和🍠的合影 get

結束後的轟趴館娛樂時間！

接下來進入主題演講回顧 ⬇️ 可掃描下方二維碼，檢視視訊回顧

昇思 MindSpore 訓練創新與實踐

昇思 MindSpore 大模型高級工程師姚逸璠帶來了【昇思 MindSpore 訓練創新與實踐】主題分享。

姚逸璠介紹，昇思 MindSpore 開源已有 4 年，在大模型的行業落地方向探索最早，在多個行業場景實作了多個大模型的套用落地，如運用在電力行業的紫東太初全模態，煤礦行業的盤古礦山，等等。同時，昇思孵化的基礎大模型涵蓋了多個技術領域，對各個技術方向下的大模型孵化均有積累，如自然語言處理領域的盤古、電腦視覺領域的華為雲盤古 CV、多模態領域的悟空等等。

為了方便開發者進行開發，昇思提供了全流程的基礎模型套件，涵蓋了大模型從開發、訓練、微調到部署的全流程，開箱即用。在開發時，LLaMA 等預訓練模型庫已備好，15 + 基於昇思 MindSpore 的開源預訓練大模型可直接獲取使用。同時提供基於高階 API 的靈活開發，10 行程式碼即可構建 LLaMA、BLOOM 等開源大模型全流程業務。

在訓練時，昇思提供了豐富的訓練模型庫，多維混合並列，萬億參數模型，方便最大化利用有限的資源，提升集群的效率。

在微調時，昇思提供了豐富的低參微調，支持 LoRA/Prefix-Tuning/Adapter 等 6 種低參微調演算法，支持千億模型做人類反饋強化學習微調。目前，MindSpore RLHF 已開源。

姚逸璠介紹，昇思 MindSpore 的角色就是從使用者的模型網路到底層硬體的中介軟體工具，是一個編譯器架構，輸入使用者的訓練網路，輸出異構硬體上執行的任務。

在大模型大集群並列訓練中，典型的大模型並列訓練策略有：數據並列 + 最佳化器並列 + 模型並列 + 流水並列 + 重計算。無論是稠密的模型還是稀疏的模型，通訊的開銷都是非常大的。除了算力之外，整個大模型的開銷還有算子級模型並列的通訊開銷、流水並列 Bubble 和數據並列拖尾時間。如果要擴充套件大萬卡集群，那麽在 Batch Size 受限的情況下，Pipeline Bubble 會加大；DP 拖尾增加，萬卡集群線性度擴充套件；集群通訊域更大，通訊效能需要最佳化。

而算子級模型平行計算和通訊無法並列，通訊占比 20%-40%。那麽，昇思是怎麽做的呢？

昇思的思路是 —— 多副本並列：隱藏模型通訊，最佳化算子級模型並列。數據和通訊有數據依賴，無法並行，那就拆分為兩個分支，一邊計算一邊通訊。Case 1 在 Sequence 維度計算通訊流水並行，Case 2 在 Batch 維度計算通訊流水並行，隱藏 75% Tensor/Sequence/Expert 並列模型並列通訊。這個技術在大模型已經套用上了，實測可以提升 10%-15% 的訓練效能。

未來，昇思會加強萬卡大集群訓練效能最佳化、稠密大模型和稀疏 MoE 大模型效能最佳化，提升超長序列模型支持和千億 / 萬億 RLHF 支持，做好多模態大模型和大模型高可用訓練。

星火大模型 + 智慧硬體的套用創新

科大訊飛開放平台高級產品經理鄭重陽帶來了【星火大模型 + 智慧硬體的套用創新】主題分享。鄭重陽介紹，科大訊飛在 2023 年 7 月開始擔任國家大模型專家組聯合組長，開發的 AI 能力和解決方案已有 600 多項。其中，星火認知大模型 V3.5 經過不斷的叠代，文本生成、語言理解、知識問答、邏輯推理、數學能力、程式碼能力、多模態能力都有了全面提升，其語言能力和數學能力，已經全面超越了 GPT 4。

星火大模型目前支持多種接入方式，如公有雲呼叫、專有雲呼叫和私有雲部署。同時，星火大模型支持多級最佳化方案組合，從提示詞最佳化、知識庫嵌入，到大模型微調和行業模型客製，滿足行業不同場景需求。

此次分享，鄭重陽還介紹了一些大模型在硬體產品的套用落地，主要分為 3 個產品線：一是穿戴產品，如手表；二是辦公產品，如鍵鼠；三是個人硬體，如 PC 電腦。

在智慧型手錶方面，大模型的加入可以帶來如互動升級，定研的低功耗喚醒和合成技術，提升穿戴產品的互動次數；個人化助手，AI 人格為助手套用適應新生代的個人化訴求；輕套用，如虛擬教練、醫養助手、日程助理等；AIGC 表盤，大模型的文生圖能力，可提供千人千面的個人化表盤。

在智慧鍵鼠方面，大模型的加入可以帶來三個方面的提升，包括語音輸入；智慧助手，一句話、一個文本就能完成文稿撰寫、PPT 生成、摘要總結生成、周報生成；智慧截圖通，過鍵鼠的點選，可以快速實作圖文內容提取，包括表格辨識、文本的快速轉譯，大大提升工作效率。

在 PC 電腦方面，訊飛在底層采用了星火 1+N+X 模型的架構，在通用大模型、行業大模型、MaaS 微調模型和本地大模型之上，搭載了大模型原子能力、大模型配套能力、端雲外掛程式、端雲知識管理和端雲 AI 能力，從而可以很好地透過跨平台統一介面，實作套用的創新。如資料管家，根據已有的知識庫，輸出想要的問答。

基於星火大模型，訊飛也釋出了星火語音大模型。在 13 個重要語種中，星火語音大模型的辨識效果達到了 94%，其余 24 個主要語種達到了 90% 以上，效果超過了 OpenAI Whisper V3。

同時，基於大模型、Fine Tuning、Embedding、Rract、Prompt 工程和超自然合成等技術，深度模擬類人格反應的 AI 功能元件，還可以打造擬人化的助手，為 C 端使用者提供個人化服務。目前，星火友伴這一產品已經上線。

另外，訊飛還推出了 iFlyCode 這一基於星火程式碼大模型的智慧編程助手，提供了智慧問答和沈浸式兩種編程方式，致力於降低開發人員的專業門檻，解決軟體開發的效能瓶頸。

鄭重陽介紹，端雲大模型套用在 PC 端，豐富元件靈活組合，可以輕松構建大模型套用。離線上互動智慧協同，無網也可用。端雲模型工具延時更低，效果更好。使用者敏感數據純本地執行，私密更安全。

未來，訊飛會繼續在教育硬體、可穿戴 AR/VR、音訊、智慧會議、直播行業、醫療康養裝置等方向探索，挖掘大模型在其他硬體上套用的新方向。

端側程式碼生成：以 MoonBit 為例

IDEA 基礎軟體中心高級工程師費浩祥帶來了【端側程式碼生成：以 MoonBit 為例】主題分享。費浩祥介紹，MoonBit 是一個程式語言，MoonBit AI 基於此而進行創新。不同於追求傳統科研機構的單點創新，MoonBit 著眼於大規模系統工程能力，重點關註構建系統、程式語言和編譯器，盡量讓使用者無痛上手使用語言。

目前，MoonBit 支持 WebAssembly、JVM、JavaScript、Native 等多後端，主要服務於三個方向：雲、AI 和教育。

在雲 + 邊緣方向，MoonBit 的目標是打造跨平台、體積小、編譯快，可允許離線模式下的雲 IDE。

在 AI 方向，MoonBit 創新融合了傳統 IDE 與大模型智慧，打造一個使用者只需輸入需求，大模型就能一鍵生成程式碼、部署偵錯無縫銜接的 AI first 平台。

在教育方面，MoonBit 的目標是打造全球化視野、業界領先的教學合作平台，無需外掛程式，一鍵安裝，讓使用者只需專註於寫程式碼即可。

目前，MoonBit 已開放了標準庫、構建系統和編譯器，期望 2025 年可以釋出 1.0 版本。MoonBit 核心標準庫自 3 月 8 日開源核心標準庫以來，社群反饋活躍，國內外在校學生積極參與，程式碼送出品質不亞於經驗豐富工程師。

MoonBit AI，則是為 MoonBit 量身打造的一個 AI 編程工具，方便使用者根據需求生成 MoonBit 程式碼，類似 Copilot。目前，MoonBit AI 采用的是重采樣技術，利用編譯器來輔助大模型的程式碼生成，從而達到響應速度快、即時性好、減少幻覺的同時，擁有更高品質的生成。

比較特殊的是，MoonBit AI 是可以部署在端側的大模型，IDE 的強即時性要求給予了端側大模型獨特的效能優勢，也開拓了不少可能性。無論是從開發人員的角度，還是從使用者體驗的角度，都變得更加簡單了。大模型直接內建在編譯器裏面，大模型跟編譯器的溝通會變得更高效。使用者無論是得到傳統編譯器的反饋，還是大模型的程式碼補全，效率都更高了。

MoonBit AI 目前已經支持在 WASM 和瀏覽器中部署和訓練模型。

大模型 Serverless 推理系統

Gitee AI 專家顧問、清華大學高效能計算所林家楨帶來【大模型 Serverless 推理系統】主題演講。林家楨指出，目前的大模型推理算力在面對復雜生態，難以最佳化整合算力資源，導致 AI 落地使用時各環節產品未能充分磨合最佳化，造成算力資源浪費。

Gitee AI 匯聚最新最熱 AI 模型，提供模型體驗、推理、訓練、部署和套用的一站式服務，提供充沛算力，做中國最好的 AI 社群。Gitee AI 目前聚合了 2000 多個模型，但免費的算力資源有限，因此就需要更加高效地將這些免費算力按需分配給開發者使用，這在當下是一個非常有挑戰性的問題。比如以往使用容器技術做外部開發時，單個容器的換入換出以及喚醒都非常迅速，但是這在大模型時代變難了，模型的喚醒和休眠導致容器的換入換出管理難以同以往的場景一樣高效。

而 Serverless AI 具備 4 大優勢，包括部署簡單、開箱即用，降低算力使用成本，覆蓋主流模型，支持多種算力硬體。目前的模型引擎或者說購買、使用算力的方式存在一個問題，即使用者程式、模型、推理的芯片全都綁在一個容器上，占住硬體芯片，使用算力服務。而 Serverless 推理引擎整合最佳化算力資源，透過多個層級的解聚合，降低套用、模型、算力三者間的耦合性，按需分配算力，提高資源利用率。

Serverless 系統架構分為三層，最底層為編譯器層，將在容器中載入模型改為 rpc 呼叫到遠端服務的模式，介面沒有改變，但是換成了後端的推理，以實作模型和芯片的解聚合。rpc 給到上一層的推理引擎，推理引擎是實際上發生計算的集群，這個層級則做了數據和算力解聚合。比如假設一個十張卡滿足 3000 個模型的排程請求的任務場景，這時沒辦法在一張卡上固定載入某個大模型，便需要根據請求臨時動態高效載入想要的模型，因此把計算的芯片和模型權重做解聚合，模型放在 TanserGraph 上，這是一個異構的記憶體系統，可支撐實作算力芯片和模型解聚合。在最上層，Serverless 層，則進行套用和推理解聚合。

Serverless 系統架構的核心能力是異構互聯記憶體，解決模型權重問題。數據中心整機架構存在一些局限性，如資源利用率低、硬體擴充套件性受限等，解聚合技術可以將整機架構中各部件物理分離，使用一定互聯連結各部件的控制界面（Control Plane）與數據界面（Data Plane），實作各類資源按需分配、擴容。此外，記憶體解聚合在雲場景下也具備套用優勢，包括提高雲環境資源利用率和便於滿足日益增長的記憶體資源需求。

但現有分層記憶體系統不適應解聚合架構下的高硬體彈性，系統擴充套件性也受限，並且由於系統內部結構限制，現有記憶體管理介面能力受限。異構互聯記憶體則可以透過硬體存取統計、可編程策略、頁遷移三個環節解決這些問題。以 CPU 為例，對於基於 PEBs 的存取統計上，支持硬體采集運行程式的訪存情況，記錄指令、TID、目的地址等，然後按需載入模型權重。

此外，Serverless 系統架構也具備了其他多種能力，如基於 MLIR 的多層次神經網路編譯最佳化技術，基於使用者態隔離技術的輕量化系統服務機制。Serverless 推理引擎基於兩大核心智慧財產權技術構建，除此之外也整合了目前各類主流的推理系統最佳化技術。

104 期源創會·上海站 —— 雲技術專場現已開啟報名

>>> https://www.oschina.net/event/2332088

END