史上最大開源LLM，參數高達3140億！馬斯克如約開源Grok，10小時狂攬10000顆Star

2024-03-18資訊

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

氣「OpenAI 不 Open」以至於對其發起訴訟之後，馬斯克踐行自己自由、開放的原則，在剛剛過去的周末裏選擇重磅開源自家的 AI 大模型——Grok-1（https://github.com/xai-org/grok-1）。

距離 Grok-1 開源僅過去了 10 個小時，該計畫便獲得了 10k 的 Star，成為眾人關註的焦點所在。

馬斯克的 xAI 公司開源 Grok-1，高達 3140 億參數

這款 Grok 大模型，是馬斯克集結 Deepmind、微軟、特斯拉、學術界多位大佬於 2023 年 7 月成立的人工智慧初創公司 xAI 所帶來的成果。

Grok 的設計初衷，靈感來源於英國作家道格拉斯·亞當斯所寫的一系列科幻小說【銀河系漫遊指南】，和 ChatGPT 一樣，可以以對話方式回答問題，也能聯網，而有所不同的是，Grok 已整合到 X 社交媒體平台中，可以「即時存取」該平台上的所有資訊，還可以回答大多數其他 AI 系統拒絕回答的尖銳問題，甚至就如何提問給出建議。

訂閱 X 的高級功能使用者可以向 Grok 提出問題並收到答復。

根據 xAI 在其官方部落格更新的公告顯示，其開源的 Grok-1 是一個由 xAI 從頭開始訓練的 3140 億參數混合專家（MoE）模型。

xAI 團隊表示，「這是 Grok-1 預訓練階段的原始基礎模型檢查點，該階段於 2023 年 10 月結束。這意味著該模型沒有針對任何特定套用（例如對話）進行微調。」

該模型的詳細情況：

基於大量文本數據訓練的基礎模型，未針對任何特定任務進行微調。

314B 參數的混合專家模型， 25% 的權重對給定 token 有效。

xAI 於 2023 年 10 月在 JAX 和 Rust 上使用自訂訓練堆疊從頭開始訓練。

同時 Grok-1 是在 Apache 2.0 授權證下釋出權重和架構。

值此，在 X 平台上，來自 LangChainAI 的工程師 Andrew Kean Gao 還對 Grok 架構進一步地展開深入分析。

他說道，「我剛剛瀏覽了 http://model.py ，對於這個 314B 開源的龐然大物，竟然沒有附加任何條件。」

詳細來看，Grok-1 是一個 314 B 的 Mixture-of-Experts（MoE）模型（8 個專家 2 個是活躍的），860 億的啟用參數，這比 Llama-2 的 70B 參數還要多。

此外，Grok-1 使用的旋轉位置嵌入（RoPE）而非固定位置嵌入。

再者，Grok-1 tokenizer 詞匯大小為 131,072（與 GPT-4 類似） 2^17，嵌入大小為 6,144（48*128）；64 個 Transformer 層，每層都有一個解碼器層：多頭註意力塊和密集塊，鍵值大小 128。

其中，多頭註意模組有 48 個 head 和 8 個鍵/值 (KV)，KV 大小為 128。

密集塊（密集前饋塊）：加寬因子為 8，隱藏層大小為 32768。

每個 token 從 8 個專家中選出 2 個。

旋轉位置嵌入大小為 6144，這是有道理的，因為它與模型的輸入嵌入大小相同。

上下文長度：8,192 個詞塊

精度 bf16

Grok-1 的效能

關於 Grok-1 的詳細細節，此前 CSDN 也。

根據官方公告顯示，為 Grok 提供動力的引擎 Grok-1，是在數萬個 GPU 集群（外媒 Techcrunch 透露，可能是由 Oracle 提供的）上花了幾個月時間開發的，訓練數據來自網路（截至 2023 第三季度）和人類助手的反饋，xAI 將其稱之為「AI 導師」。

在 Grok-1 之前， xAI 公司也訓練了一個具有 330 億個參數的原型 LLM （Grok-0）。這個早期模型在標準 LM 基準測試上接近 LLaMA 2 （70B）功能，但只使用了一半的訓練資源。之後，xAI 團隊在推理和編碼能力方面取得了重大改進，最終推出了 Grok-1，這是一種功能更強大的最先進的語言模型，在 HumanEval 編碼任務中實作了 63.2%，在 MMLU 上實作了 73%。

為了驗證 Grok-1 的能力， xAI 團隊使用了一些衡量數學和推理能力的標準機器學習基準進行了一系列評估。

根據測試結果顯示，Grok-1 目前處於中等水平，超過了 GPT-3.5、LLaMA 2 70B，但是距離 Claude 2、GPT-4 等大模型還有一定的距離。

使用指南

當前，Grok-1 面向所有人開放，而要開始使用該模型，可以先確保下載 checkpoint 並將 ckpt-0 目錄放入 checkpoint。然後，執行：

pip install -r requirements.txtpython run.py

進而測試程式碼。

指令碼在測試輸入上載入檢查點和模型樣本。

值得註意的事，Grok-1 參數量高達 314B 個參數，其模型體積龐大，需要配備足夠 GPU 記憶體的機器才能使用範例程式碼測試模型。

xAI 團隊在 GitHub 計畫倉柯瑞面也直言道：該資源庫中 MoE 層的實作並不高效。選擇這種實作方式是為了避免需要客製內核來驗證模型的正確性。

你可以使用 torrent 客戶端和下面磁鐵連結下載權重：

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https://academictorrents.com/announce.php&tr=udp://tracker.coppersurfer.tk:6969&tr=udp://tracker.opentrackr.org:1337/announce

詳細使用指南也可以透過 GitHub 計畫地址：github.com/xai-org/grok 進行速覽。

開源 or 閉源

一直以來，關於究竟是該構建開源還是閉源的大模型，業界存有巨大的爭議。對於 OpenAI 等公司而言，如今的 AI 存在不少未可知的風險，開源有可能造成技術被濫用，所以閉源似乎優於開源。

但是在馬斯克等人看來，透過開放程式碼讓所有人有權檢視和使用有助於使技術更加安全。所以在此次開源 Grok 之際，馬斯克還暗諷了 ChatGPT，希望讓其「告訴我們更多有關 OpenAI 開放部份的資訊....」

馬斯克認為，任何話題都不應該成為聊天機器人的禁區。不過，他也警醒道：

「我的一位朋友提醒我澄清清醒人工智慧的危險性質，尤其是強制多樣性。

如果一個人工智慧被設定為不惜一切代價推動多元化，就像 Google Gemini 那樣，那麽它就會不擇手段地造成這種結果，甚至有可能殺人。」

亞利桑那州立大學電腦科學教授 Subbarao Kambhampati 同樣認為，開源當今的人工智慧技術是最安全的方法。

不過，也有不少使用者擔心馬斯克只是做了初步開源 Grok-1 的計劃，就沒有後續跟進，畢竟他此前對 X 的推薦演算法也做了開源，但只是開源之後就似乎沒有更新過。

針對這一擔憂，馬斯克也現身回應有關開源 X 推薦演算法時說道，「還有很多工作要做，但這個平台已經是迄今為止最透明、最求真的平台（說實話，門檻並不高）」。

不管怎樣，馬斯克成立的 xAI 公司僅僅用了 8 個月不僅建立了 Grok，還將 Grok-1 開源出來，其行動速度遠超乎眾人的想象，甚至 OpenAI 的員工也表達了他們對 Grok 的強烈興趣。

而 Grok 的釋出可能會給所有其他 LLM 提供商（尤其是其他競爭對手的開源提供商）帶來不小的壓力，但有競爭才有進步，對於普通使用者而言，也是一件好事。

正如輝達科學家 Jim Fan 評價道：「有史以來最大的開放 LLM，由世界級團隊訓練；透過磁力連結釋出；Apache 2.0；314B；專家混合（8 個活躍中的 2 個）。就連啟用參數僅（86B）就超過了最大的 Llama。迫不及待地想看到基準測試結果以及人們用它構建的內容。」

來源：

Grok 開源地址：https://github.com/xai-org/grok-1

官方部落格公告：https://x.ai/blog/grok-os

https://x.ai/blog/grok

推薦閱讀：

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。