當前位置: 妍妍網 > 資訊

史上最大開源LLM,參數高達3140億!馬斯克如約開源Grok,10小時狂攬10000顆Star

2024-03-18資訊

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

氣「OpenAI 不 Open」以至於對其發起訴訟之後,馬斯克踐行自己自由、開放的原則, 在剛剛過去的周末裏選擇重磅開源自家的 AI 大模型——Grok-1(https://github.com/xai-org/grok-1)。

距離 Grok-1 開源僅過去了 10 個小時,該計畫便獲得了 10k 的 Star,成為眾人關註的焦點所在。

馬斯克的 xAI 公司開源 Grok-1,高達 3140 億參數

這款 Grok 大模型,是馬斯克集結 Deepmind、微軟、特斯拉、學術界多位大佬於 2023 年 7 月成立的人工智慧初創公司 xAI 所帶來的成果。

Grok 的設計初衷,靈感來源於英國作家道格拉斯·亞當斯所寫的一系列科幻小說【銀河系漫遊指南】,和 ChatGPT 一樣,可以以對話方式回答問題,也能聯網,而有所不同的是,Grok 已整合到 X 社交媒體平台中,可以「即時存取」該平台上的所有資訊,還可以回答大多數其他 AI 系統拒絕回答的尖銳問題,甚至就如何提問給出建議。

訂閱 X 的高級功能使用者可以向 Grok 提出問題並收到答復。

根據 xAI 在其官方部落格更新的公告顯示,其開源的 Grok-1 是一個由 xAI 從頭開始訓練的 3140 億參數混合專家(MoE)模型。

xAI 團隊表示,「這是 Grok-1 預訓練階段的原始基礎模型檢查點,該階段於 2023 年 10 月結束。這意味著該模型沒有針對任何特定套用(例如對話)進行微調。」

該模型的詳細情況:

  • 基於大量文本數據訓練的基礎模型,未針對任何特定任務進行微調。

  • 314B 參數的混合專家模型, 25% 的權重對給定 token 有效。

  • xAI 於 2023 年 10 月在 JAX 和 Rust 上使用自訂訓練堆疊從頭開始訓練。

  • 同時 Grok-1 是在 Apache 2.0 授權證下釋出權重和架構。

    值此,在 X 平台上,來自 LangChainAI 的工程師 Andrew Kean Gao 還對 Grok 架構進一步地展開深入分析。

    他說道,「我剛剛瀏覽了 http://model.py ,對於這個 314B 開源的龐然大物,竟然沒有附加任何條件。」

    詳細來看,Grok-1 是一個 314 B 的 Mixture-of-Experts(MoE)模型(8 個專家 2 個是活躍的),860 億的啟用參數,這比 Llama-2 的 70B 參數還要多

    此外,Grok-1 使用的旋轉位置嵌入(RoPE)而非固定位置嵌入。

    再者,Grok-1 tokenizer 詞匯大小為 131,072(與 GPT-4 類似) 2^17,嵌入大小為 6,144(48*128);64 個 Transformer 層,每層都有一個解碼器層:多頭註意力塊和密集塊,鍵值大小 128。

    其中,多頭註意模組有 48 個 head 和 8 個鍵/值 (KV),KV 大小為 128。

    密集塊(密集前饋塊):加寬因子為 8,隱藏層大小為 32768。

    每個 token 從 8 個專家中選出 2 個。

  • 旋轉位置嵌入大小為 6144,這是有道理的,因為它與模型的輸入嵌入大小相同。

  • 上下文長度:8,192 個詞塊

  • 精度 bf16

  • Grok-1 的效能

    關於 Grok-1 的詳細細節,此前 CSDN 也 。

    根據官方公告顯示,為 Grok 提供動力的引擎 Grok-1, 是在數萬個 GPU 集群(外媒 Techcrunch 透露,可能是由 Oracle 提供的)上花了幾個月時間開發的,訓練數據來自網路(截至 2023 第三季度)和人類助手的反饋,xAI 將其稱之為「AI 導師」。

    Grok-1 之前, xAI 公司也訓練了一個具有 330 億個參數的原型 LLM (Grok-0)。這個早期模型在標準 LM 基準測試上接近 LLaMA 2 (70B) 功能,但只使用了一半的訓練資源。之後,xAI 團隊在推理和編碼能力方面取得了重大改進,最終推出了 Grok-1,這是一種功能更強大的最先進的語言模型,在 HumanEval 編碼任務中實作了 63.2%,在 MMLU 上實作了 73%。

    為了驗證 Grok-1 的能力, xAI 團隊使用了一些 衡量數學和推理能力的標準機器學習基準進行了一系列評估。

    根據測試結果顯示,Grok-1 目前處於中等水平,超過了 GPT-3.5、LLaMA 2 70B,但是距離 Claude 2、GPT-4 等大模型還有一定的距離。

    使用指南

    當前,Grok-1 面向所有人開放,而要開始使用該模型,可以先確保下載 checkpoint 並將 ckpt-0 目錄放入 checkpoint。然後,執行:

    pip install -r requirements.txtpython run.py

    進而測試程式碼。

    指令碼在測試輸入上載入檢查點和模型樣本。

    值得註意的事,Grok-1 參數量高達 314B 個參數,其模型體積龐大,需要配備足夠 GPU 記憶體的機器才能使用範例程式碼測試模型。

    xAI 團隊在 GitHub 計畫倉柯瑞面也直言道:該資源庫中 MoE 層的實作並不高效。選擇這種實作方式是為了避免需要客製內核來驗證模型的正確性。

    你可以使用 torrent 客戶端和下面磁鐵連結下載權重:

    magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https://academictorrents.com/announce.php&tr=udp://tracker.coppersurfer.tk:6969&tr=udp://tracker.opentrackr.org:1337/announce

    詳細使用指南也可以透過 GitHub 計畫地址:github.com/xai-org/grok 進行速覽。

    開源 or 閉源

    一直以來,關於究竟是該構建開源還是閉源的大模型,業界存有巨大的爭議。對於 OpenAI 等公司而言,如今的 AI 存在不少未可知的風險,開源有可能造成技術被濫用,所以閉源似乎優於開源。

    但是在馬斯克等人看來,透過開放程式碼讓 所有人有權檢視和使用有助於使技術更加安全。所以在此次開源 Grok 之際,馬斯克還暗諷了 ChatGPT,希望讓其「告訴我們更多有關 OpenAI 開放部份的資訊....」

    馬斯克認為,任何話題都不應該成為聊天機器人的禁區。不過,他也警醒道:

    「我的一位朋友提醒我澄清清醒人工智慧的危險性質,尤其是強制多樣性。

    如果一個人工智慧被設定為不惜一切代價推動多元化,就像 Google Gemini 那樣,那麽它就會不擇手段地造成這種結果,甚至有可能殺人。」

    亞利桑那州立大學電腦科學教授 Subbarao Kambhampati 同樣認為,開源當今的人工智慧技術是最安全的方法。

    不過,也有不少使用者擔心馬斯克只是做了初步開源 Grok-1 的計劃,就沒有後續跟進,畢竟他此前對 X 的推薦演算法也做了開源,但只是開源之後就似乎沒有更新過。

    針對這一擔憂,馬斯克也現身回應有關開源 X 推薦演算法時說道,「還有很多工作要做,但這個平台已經是迄今為止最透明、最求真的平台(說實話,門檻並不高)」。

    不管怎樣,馬斯克成立的 xAI 公司僅僅用了 8 個月不僅建立了 Grok,還將 Grok-1 開源出來,其行動速度遠超乎眾人的想象,甚至 OpenAI 的員工也表達了他們對 Grok 的強烈興趣。

    而 Grok 的釋出可能會給所有其他 LLM 提供商(尤其是其他競爭對手的開源提供商)帶來不小的壓力,但有競爭才有進步,對於普通使用者而言,也是一件好事。

    正如輝達科學家 Jim Fan 評價道:「有史以來最大的開放 LLM,由世界級團隊訓練;透過磁力連結釋出;Apache 2.0;314B;專家混合(8 個活躍中的 2 個)。就連啟用參數僅(86B)就超過了最大的 Llama。迫不及待地想看到基準測試結果以及人們用它構建的內容。」

    來源:

    Grok 開源地址:https://github.com/xai-org/grok-1

    官方部落格公告:https://x.ai/blog/grok-os

    https://x.ai/blog/grok

    推薦閱讀:


    4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行,特邀近 50 位技術領袖和行業套用專家,與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。