千萬美元就讓最強開源模型易主？Databricks 開源 1320 億參數大模型強勢攪局，Grok 和 LLaMA 悉數落敗！

2024-03-28資訊

作者 | 王啟隆

出品 | CSDN（ID：CSDNnews）

數據是當前火爆全球的 AI 大模型至關重要的一環，有人把數據比作大模型的「血液」，而預訓練數據的數量、品質、多樣性是大模型能力表現的關鍵性因素。正因如此，很多人（曾）一度認為坐擁海量數據並孵化出 Google Brain 的谷歌公司會成為 AI 時代的領頭羊。

昨晚，大數據和 AI 公司 Databricks 宣布開源他們的 132B 大模型 DBRX 。目前，DBRX 的基礎 (DBRX Base) 和微調 (DBRX Instruct) 版本皆允許在 GitHub 和 Hugging Face 上用於研究和商業用途，並且可以在公共、自訂或其他專有數據上執行和調整。

GitHub：

https://github.com/databricks/dbrx

Hugging Face 連結：

https://huggingface.co/databricks/dbrx-base（基礎版）

https://huggingface.co/databricks/dbrx-instruct （微調版）

Databricks 源自加州大學柏克萊分校的 AMPLab 計畫，致力於研發一款基於 Scala 構建的開源分布式計算框架 Apache Spark。所謂的「湖倉一體」（data Lakehouse）就是這家公司首創的概念。2023 年 3 月的時候， Databricks 就跟著 ChatGPT 的風推出了開源語言模型 dolly，並在後續的 2.0 版本打出了「第一個真正開放和商業可行的指令調優 LLM（大模型）」的口號。

所以，這是 Databricks 的「第二次攪局」。

這一次釋出的 DBRX 耗時 兩個月 、投入約 1000 萬美元 訓練打造，宣稱「超越了 GPT-3.5 ，與 Gemini 1.0 Pro 具有競爭力，在編程方面超越了 CodeLLaMA-70B 等專業模型」。Databricks 的首席神經網路架構師 & DBRX 團隊負責人 Jonathan Frankle 還直接在 X 上放話：「 樹立開源 LLM 的新標準！ 」

Jo n athan Frankl e 曾經是生成式 AI 初創公司 MosaicML 的首席科學家，而 Databric ks 在 2023 年 6 月以 14 億美元的大手筆收購了 MosaicML，這一舉動還讓 Frankl e 辭掉了哈佛大學的教授工作，專心開發 DBRX。

馬斯克意氣風發的宣告 3140 億史上最大開源模型 Grok-1 誕生，這事就發生在 10 天前，還令人歷歷在目。難不成 DBRX 真的就這麽輕松擊潰了 LLaMA 和 Grok 兩大開源模型？背景已經介紹完畢，下面我們就來看看 DBRX 的詳細情況。

樹立開源新標準？

首先，萬物基於 Transformer，DBRX 也不例外。

除此之外，DBRX 還是一個混合專家模型（MoE），總計 1320 億（132 B）參數，在 12T 文本和程式碼數據 tokens 上進行預訓練。MoE 架構引入了一種模組化的體系結構，從一個巨大的神經網路裏分解出多個子網路（「專家網路」）協同工作，處理輸入數據。

相比法國的 Mixtral 和 Grok-1 等其他開源 MoE 模型，DBRX 有個「獨門絕學」： 它配置了 16 個專家網路，從中選擇 4 個參與運算，並且僅使用 360 億的參數。 （Mixtral 和 Grok-1 則各有 8 個專家網路，選擇其中 2 個參與）

Databricks 還發現，這種改進能有效提升模型品質。

不過 DBRX 和 Grok-1 有一個同款的毛病：貴。Databricks 在這兩個月用了 3072 張 NVIDIA H100 GPU 訓練 D BR X，而使用者如果想在標準配置中執行 DBRX，則需要一台至少配備 四張 H100 （或 320GB 視訊記憶體 的任何其他 GPU 配置）的伺服器或 PC。

在推理速度上，DBRX 比 LLaMA2-70B 快約 2 倍；從參數總數和啟用參數數來看，DBRX 大約只有 Grok-1 的 40% 大小。 Dat abricks 也提供了 API 服務，在 8 位量化（8-bit quantization）的情況下，DBRX 預計可以每秒處理高達 150 個 tokens 的吞吐量。

上圖的表格體現了 DBRX 在語言理解 (MMLU)、編程 (HumanEval) 和數學 (GSM8K) 方面優於已建立的開源模型。

同樣被 DBRX 擊敗的還有 ChatGPT 3.5，Databricks 認為這可以「 加速企業內開源模型取代專有模型的趨勢 」。事實上，DBRX 也沒有真的「避戰」如日中天的 GPT-4，反而在 SQL 等應用程式中對 GPT-4 Turbo 構成了挑戰。

能講故事的 AI 電影

下面來看一些評測對比。

這張表格的主要對比物件是 DBRX 對標的一眾開源模型：

1. 綜合基準測試表現優異。

DBRX 的「微調版」 Instruct 在 Hugging Face Open LLM Leaderboard 這一復合基準測試中取得了最高分，得分達到了 74.5%，遠高於第二名 Mixtral Instruct 的 72.7%。

在 Databricks Model Gauntlet 這套包含超過 30 項任務、橫跨六個領域的評估套件中，DBRX Instruct 再次領先，得分為 66.8%，相比第二名 Mixtral Instruct 的 60.7% 有顯著優勢。

2. 編 程與數學能力突出。

在編程和數學相關的任務上，DBRX Instruct 展現了尤為強大的能力。例如，在 HumanEval 這一評估程式碼品質的任務上，其正確率達到 70.1%，比 Grok-1 高出約 7 個百分點，比 Mixtral Instruct 高出約 8 個百分點，並超過了所有被評估的 LLaMA2-70B 變體。

在 GSM8k 數學問題解決測試中，DBRX Instruct 也取得了最優成績 66.9%，勝過 Grok-1 和 Mixtral Instruct 以及其他 LLaMA2-70B 變體。

值得註意的是，盡管 Grok-1 的參數數量是 DBRX Instruct 的 2.4 倍，但在上述編程和數學任務上，DBRX Instruct 仍能保持領先地位。甚至在針對編程任務專門設計的 CodeLLaMA-70B Instruct 模型之上，DBRX Instruct 在 HumanEval 上的表現依然出色。

3. 多語言理解能力最強。

在大規模多工語言理解數據集（MMLU）上，DBRX Instruct 繼續展示出頂級效能，得分高達 73.7%，超過了本次比較的所有其他模型。不過關於這點，在實測之前還是無法完全證明它的中文水平究竟如何。

DBRX 對陣開源模型確實占據上風，如果讓它去打當前的「絕代雙驕」GPT-4 和 Claude-3 呢？Databricks 針對幾大閉源模型也做了相關測評，還很詳盡：

上面這張表主要對比的是基準測試，DBRX 對比 GPT-3.5 在幾乎所有的基準測試中都優於或至少持平對比。

DBRX 對比 Gemini 1.0 Pro 則勝了 Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval這幾個基準，但 Gemini 1.0 Pro 在 GSM8k 測試中表現更強，這意味著在某些特定型別的數學問題解決上，Gemini 1.0 Pro 可能更具優勢。

DBRX 對比 Mistral Medium 在 HellaSwag 上的得分相似，兩者的推理能力五五開； Winogrande 和 MMLU 這兩項語言類的測試全都是 Mistral Medium 占據了優勢；而在 HumanEval、GSM8k 以及 Inflection Corrected MTBench 這些基準上，DBRX Instruct 則獲得了更高的分數，所以 DBRX 還是更擅長編程和數學推理一點。

緊接著上面這張表是針對上下文視窗的評測，GPT-4 Turbo 還是殺瘋了，值得一提的是 DBRX Instruct 在所有上下文長度和序列的所有部份上都比 GPT-3.5 Turbo 表現更好。

上表顯示，Databricks 還做了檢索增強生成（RAG）技術相關的測試，這是當前最火的大模型套用方案，讓大模型檢索外部知識源來提供更多資訊。這項也一樣， 除了 GPT-4 Turbo，都能打得過 。

除此之外，上方是訓練效率相關的基準評測表格。DBRX MoE-B 模型相較於 LLaMA2-13B 用更少 FLOPs 獲得了更高的得分。

前文已經提到 DBRX 的推理效率高，其推理吞吐量比 132B 的非 MoE 模型還要高 2-3 倍。而上面這張圖是 DBRX 在 NVIDIA TensorRT-LLM 的 16 位精度環境下，針對不同模型配置的吞吐量測試。使用了最優的最佳化標誌，即盡可能地提升了模型執行效率。一言以蔽之就是：很穩。

GitHub：

https://github.com/databricks/dbrx

Hugging Face 連結：

https://huggingface.co/databricks/dbrx-base（基礎版）

https://huggingface.co/databricks/dbrx-instruct （微調版）

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。