當前位置: 妍妍網 > 資訊

千萬美元就讓最強開源模型易主?Databricks 開源 1320 億參數大模型強勢攪局,Grok 和 LLaMA 悉數落敗!

2024-03-28資訊

作者 | 王啟隆

出品 | CSDN(ID:CSDNnews)

數據是當前火爆全球的 AI 大模型至關重要的一環,有人把數據比作大模型的「血液」,而預訓練數據的數量、品質、多樣性是大模型能力表現的關鍵性因素。正因如此,很多人(曾)一度認為坐擁海量數據並孵化出 Google Brain 的谷歌公司會成為 AI 時代的領頭羊。

昨晚,大數據和 AI 公司 Databricks 宣布開源他們的 132B 大模型 DBRX 。目前,DBRX 的基礎 (DBRX Base) 和微調 (DBRX Instruct) 版本皆允許在 GitHub 和 Hugging Face 上用於研究和商業用途,並且可以在公共、自訂或其他專有數據上執行和調整。

GitHub:

https://github.com/databricks/dbrx

Hugging Face 連結:

https://huggingface.co/databricks/dbrx-base(基礎版)

https://huggingface.co/databricks/dbrx-instruct (微調版)

Databricks 源自加州大學柏克萊分校的 AMPLab 計畫,致力於研發一款基於 Scala 構建的開源分布式計算框架 Apache Spark。所謂的「湖倉一體」(data Lakehouse)就是這家公司首創的概念。2023 年 3 月的時候, Databricks 就跟著 ChatGPT 的風推出了開源語言模型 dolly,並在後續的 2.0 版本打出了「第一個真正開放和商業可行的指令調優 LLM(大模型)」的口號。

所以,這是 Databricks 的「第二次攪局」。

這一次釋出的 DBRX 耗時 兩個月 、投入約 1000 萬美元 訓練打造,宣稱「超越了 GPT-3.5 ,與 Gemini 1.0 Pro 具有競爭力,在編程方面超越了 CodeLLaMA-70B 等專業模型」。Databricks 的首席神經網路架構師 & DBRX 團隊負責人 Jonathan Frankle 還直接在 X 上放話:「 樹立開源 LLM 的新標準!

Jo n athan Frankl e 曾經是生成式 AI 初創公司 MosaicML 的首席科學家,而 Databric ks 在 2023 年 6 月以 14 億美元的大手筆收購了 MosaicML,這一舉動還讓 Frankl e 辭掉了 哈佛大學的教授工作,專心開發 DBRX。

馬斯克意氣風發的宣告 3140 億史上 最大開源模型 Grok-1 誕生,這事就發生在 10 天前,還令人歷歷在目。難不成 DBRX 真的就這麽輕松擊潰了 LLaMA 和 Grok 兩大開源模型?背景已經介紹完畢,下面我們就來看看 DBRX 的詳細情況。

樹立開源新標準?

首先, 萬物基於 Transformer,DBRX 也不例外。

除此之外,DBRX 還是一個混合專家模型(MoE),總計 1320 億(132 B)參數,在 12T 文本和程式碼數據 tokens 上進行預訓練。MoE 架構引入了一種模組化的體系結構,從一個巨大的神經網路裏分解出多個子網路( 「專 家網路 」) 協同工作,處理輸入數據。

相比法國的 Mixtral 和 Grok-1 等其他開源 MoE 模型,DBRX 有個「獨門絕學」: 它配置了 16 個專家網路,從中選擇 4 個參與運算,並且僅使用 360 億 的參數。 (Mixtral 和 Grok-1 則各有 8 個專家網路,選擇其中 2 個參與)

Databricks 還發現,這種改進能有效提升模型品質。

不過 DBRX 和 Grok-1 有一個同款的毛病:貴。Databricks 在這兩個月用了 3072 NVIDIA H100 GPU 訓練 D BR X,而使用者如果想在標準配置中執行 DBRX,則需要一台至少配備 四張 H100 (或 320GB 視訊記憶體 的任何其他 GPU 配置)的伺服器或 PC。

在推理速度上,DBRX 比 LLaMA2-70B 快約 2 倍;從參數總數和啟用參數數來看,DBRX 大約只有 Grok-1 的 40% 大小。 Dat abricks 也提供了 API 服務,在 8 位量化(8-bit quantization)的情況下,DBRX 預計可以每秒處理高達 150 個 tokens 的吞吐量。

上圖的表格體現了 DBRX 在語言理解 (MMLU)、編程 (HumanEval) 和數學 (GSM8K) 方面優於已建立的開源模型。

同樣被 DBRX 擊敗的還有 ChatGPT 3.5,Databricks 認為這可以「 加速企業內開源模型取代專有模型的趨勢 」。事實上,DBRX 也沒有真的「避戰」如日中天的 GPT-4,反而在 SQL 等應用程式中對 GPT-4 Turbo 構成了挑戰。

能講故事的 AI 電影

下面 來看一些評測對比。

這張表格的主 要對比物件是 DBRX 對標的一眾開源模型:

1. 綜合基準測試表現優異。

DBRX 的「微調版」 Instruct 在 Hugging Face Open LLM Leaderboard 這一復合基準測試中取得了最高分,得分達到了 74.5%,遠高於第二名 Mixtral Instruct 的 72.7%。

在 Databricks Model Gauntlet 這套包含超過 30 項任務、橫跨六個領域的評估套件中,DBRX Instruct 再次領先,得分為 66.8%,相比第二名 Mixtral Instruct 的 60.7% 有顯著優勢。

2. 程與數學能力突出。

在編程和數學相關的任務上,DBRX Instruct 展現了尤為強大的能力。 例如,在 HumanEval 這一評估程式碼品質的任務上,其正確率達到 70.1%,比 Grok-1 高出約 7 個百分點,比 Mixtral Instruct 高出約 8 個百分點,並超過了所有被評估的 LLaMA2-70B 變體。

在 GSM8k 數學問題解決測試中,DBRX Instruct 也取得了最優成績 66.9%,勝過 Grok-1 和 Mixtral Instruct 以及其他 LLaMA2-70B 變體。

得註意的是,盡管 Grok-1 的參數數量是 DBRX Instruct 的 2.4 倍,但在上述編程和數學任務上,DBRX Instruct 仍能保持領先地位。 甚至在針對編程任務專門設計的 CodeLLaMA-70B Instruct 模型之上,DBRX Instruct 在 HumanEval 上的表現依然出色。

3. 多語言理解能力最強。

在大規模多工語言理解數據集(MMLU)上,DBRX Instruct 繼續展示出頂級效能,得分高達 73.7%,超過了本次比較的所有其他模型。不過關於這點,在實測之前還是無法完全證明它的中文水平究竟如何。

DBRX 對陣開源模型確實占據上風,如果讓它去打當前的「絕代雙驕」GPT-4 和 Claude-3 呢?Databricks 針對幾大閉源模型也做了相關測評,還很詳盡:

上面這張表主要對比的是基準測試,DBRX 對比 GPT-3.5 在幾乎所有的基準測試中都優於或至少持平 對比。

DBRX 對比 Gemini 1.0 Pro 則勝了 Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval這幾個 基準,但 Gemini 1.0 Pro 在 GSM8k 測試中表現更強,這意味著在某些特定型別的數學問題解決上,Gemini 1.0 Pro 可能更具優勢。

DBRX 對比 Mistral Medium 在 HellaSwag 上的得分相似,兩者的推理能力五五開; Winogrande 和 MMLU 這兩項語言類的測試全都是 Mistral Medium 占據了優勢; 而在 HumanEval、GSM8k 以及 Inflection Corrected MTBench 這些基準上,DBRX Instruct 則獲得了更高的分數,所以 DBRX 還是更擅長編程和數學推理一點。

緊接著上面這張表是 針對 上下 視窗的評測,GPT-4 Turbo 還是殺瘋了,值得一提的是 DBRX Instruct 在所有上下文長度和序列的所有部份上都比 GPT-3.5 Turbo 表現更好。

上表顯示,Databricks 還做了檢索增強生成(RAG)技術相關的測試,這是當前最火的大模型套用方案,讓大模型檢索外部知識源來提供更多資訊。這項也一樣, 除了 GPT-4 Turbo,都能打得過

除此之外,上方是訓練效率相關的基準評測表格。DBRX MoE-B 模型相較於 LLaMA2-13B 用更少 FLOPs 獲得了更高的得分。

前文已經提到 DBRX 的推理效率高,其推理吞吐量比 132B 的非 MoE 模型還要高 2-3 倍。而上面這張圖是 DBRX NVIDIA TensorRT-LLM 的 16 位精度環境下,針對不同模型配置的吞吐量測試。 使用了最優的最佳化標誌,即盡可能地提升了模型執行 效率。一言以蔽之就是:很穩。

GitHub:

https://github.com/databricks/dbrx

Hugging Face 連結:

https://huggingface.co/databricks/dbrx-base(基礎版)

https://huggingface.co/databricks/dbrx-instruct (微調版)

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行,特邀近 50 位技術領袖和行業套用專家,與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。