小模型的優勢越來越明顯了

2024-05-05碼農

架構師（JiaGouX）

我們都是架構師！
架構未來，你來不來？

在這場關於 AI 的競爭中，科技巨頭們一直在爭相開發更大的語言模型，不過現在出現了一個新趨勢：在這場大小的較量中， 小型模型正逐漸占據上風 。隨著 LLM 的發展逐漸趨於平穩，研究者和開發者開始更多地關註小語言模型（SLM）。這些小巧、高效並且適應力極強的 AI 模型正在挑戰著之前『越大越好』的舊觀念。這一轉變預示著我們將以新的方式來開發 AI 技術。

LLM 是否開始趨於穩定？

近期 Vellum 與 HuggingFace 釋出的效能對比數據顯示， 不同 LLM 間的效能差異正在迅速縮小 。這一趨勢在處理多項選擇、推理及數學問題等特定任務時尤為明顯，頂尖模型間的表現差異已微乎其微。例如，Claude 3 Opus、GPT-4 和 Gemini Ultra 在多項選擇題上的得分均超過 83%，而在推理任務中，它們的準確率甚至超過了 92%。

令人稱奇的是，一些較小的模型如 Mixtral 8x7B 和 Llama 2 - 70B 在某些領域表現同樣出色，甚至在推理和多項選擇題中表現要優於一些大型模型。這表明 模型的大小並非效能的唯一決定因素，模型的架構、訓練數據及微調技術也同樣重要 。

關於最新的 LLM，近期的研究論文均顯示出一個共同的趨勢。Uber AI 前負責人、【Rebooting AI】作者 Gary Marcus 在接受 VentureBeat 采訪時表示：「從經驗上看，最近的十幾篇論文基本上都與 GPT-4 處於相同的水平。其中一些模型的表現略優於 GPT-4，但並沒有實作質的飛躍。大家普遍認為，GPT-4 相較於 GPT-3.5 已經是一個巨大的進步。但在過去的一年多時間裏，並沒有出現任何革命性的突破。」

隨著效能差距的不斷縮小，更多的模型展現出競爭力，這不禁讓人思考：LLM 的發展是否真的已經進入了穩定期？如果這種趨勢持續下去，可能會對未來語言模型的開發和部署產生深遠的影響，開發者可能會從單純增大模型尺寸轉向探索更高效、更專業化的架構。

LLM 的缺點

盡管 LLM 功能強大，但它們也存在一些明顯的缺陷。首先，訓練 LLM 需要大量的數據，其參數可達數十億乃至數萬億，這讓訓練過程變得極其耗費資源。同時，訓練和執行 LLM 所需的計算力和能源消耗也是極為驚人的，由此帶來的高昂成本使得小公司或個人難以參與到核心 LLM 的開發中。 OpenAI CEO Sam Altman 在去年的 MIT 一次活動中提到，僅訓練 GPT-4 的成本就至少需要 1 億美元。

此外，操作 LLM 所需的工具和技術復雜性高，開發者需要克服陡峭的學習曲線，這進一步限制了其普及性。從訓練到構建及部署模型，開發者需要經歷很長一段時間，這也減慢了開發和實驗的步伐。最近劍橋大學的一篇論文表明，公司部署一個機器學習模型可能需要 90 天甚至更長的時間。

LLM 容易產生所謂的「幻覺」，即生成看似合理但實際並非真實的輸出，這是因為 LLM 在訓練時是基於訓練數據中的模式預測下一個最可能的詞，而非真正理解資訊。因此，LLM 可能會自信地產生不真實的陳述，編造事實或將不相關的概念結合在一起，形成毫無意義的內容。發現並減少這些幻覺是開發可靠和值得信賴的語言模型的持續挑戰。

Marcus 警告說：「如果你用它來處理高風險問題，肯定不希望因此侮辱客戶，傳遞錯誤的醫療資訊，或在駕駛時冒險。」

LLM 的規模和不透明性也使得它們難以解釋和偵錯，這對於建立對模型輸出的信任極為關鍵。訓練數據和演算法的偏見可能導致不公正、不準確甚至有害的輸出。正如 Google 的 Gemini 所展示的，讓 LLM 變得「安全」和可靠的技術也可能降低其效能。此外，LLM 的集中化特征也引起了人們對權力和控制權集中在少數幾家大型科技公司手中的擔憂。

小語言模型（SLM）

讓我們來看看 SLM。相較於 LLM， SLM 參數更少，設計更簡潔 。它們所需的數據和訓練時間大大減少 —— 只需幾分鐘或幾小時，而不是幾天。這一特點使得 SLM 在小型裝置或現場直接部署變得更加高效和簡單。

SLM 的一個主要優勢是它們適合特定的套用場景。因為 SLM 的關註點更集中，所需數據較少，這使得它們比大型通用模型更容易針對特定領域或任務進行精細調整。這種客製化使得企業能夠開發出適合自身特定需求的高效 SLM，例如進行情感分析、命名實體辨識或針對特定領域的問題解答。SLM 在這些特定套用中的專業效能夠提升效能和效率。

SLM 在私密和安全方面也顯示出了明顯的優勢。它們的程式碼基礎較小，結構簡單，更易於稽核，不太可能隱藏未預見的安全漏洞。這使得 SLM 特別適合處理敏感數據的場景，如醫療或金融領域，因為數據泄露可能導致嚴重的後果。此外，SLM 較低的計算需求使其更適合在本地裝置或企業伺服器上執行，而非依賴雲服務，這種本地處理方式能進一步提升數據安全性，減少在數據傳輸過程中的風險。

SLM 在其特定領域內不太可能出現檢測不到的錯誤輸出。它們通常針對特定領域或套用的較窄數據集進行訓練，有助於模型學習最相關的模式、詞匯和資訊。這種集中關註降低了生成無關、出人意料或不一致輸出的可能性。由於參數更少，結構更最佳化，SLM 在訓練數據中捕捉和放大雜訊或錯誤的可能性也較低。

HuggingFace CEO Clem Delangue 指出， 多達 99% 的使用場景可以透過 SLM 來解決，並預測 2024 年將是 SLM 元年 。HuggingFace 允許開發者構建、訓練和部署機器學習模型，該公司今年早些時候與 Google 建立了戰略合作關系。合作後，他們將 HuggingFace 整合進 Google 的 Vertex AI，使開發者能夠透過 Google Vertex Model Garden 迅速部署成千上萬的模型。

Gemma

在最初與 OpenAI 在 LLM 方面競爭失敗後，Google 正大力發展 SLM。今年二月，Google 推出了 Gemma 系列模型，這些模型設計更為高效和使用者友好。 Gemma 模型可以輕松執行在各種日常裝置上，如智慧型手機、平板電腦和膝上型電腦，無需特殊硬體或復雜最佳化。

自 Gemma 釋出以來，其在 HuggingFace 的下載量已超過 400,000 次，一些激動人心的計畫也隨之浮現。例如，Cerule 結合了 Gemma 2B 與 Google 的 SigLIP，它在龐大的圖文數據集上訓練，透過高效的數據選擇技術，展現了無需大量數據或計算就能達到高效能的可能，特別適合新興的邊緣計算場景。

另一個案例是 CodeGemma，這是 Gemma 的一個專註於編程和數學推理的版本。CodeGemma 提供了三種不同的模型，針對不同的編程活動，使開發者能更高效地使用先進的編程工具。

SLM 的變革性潛力

隨著 AI 界不斷挖掘小型語言模型的潛力，其快速的開發周期、高效的執行效率及針對特定需求的客製能力的優勢愈發明顯。 SLM 正賦能各行各業，使 AI 技術的套用更加民主化，並推動創新。 SLM 在邊緣計算中的部署開辟了在金融、娛樂、汽車系統、教育、電商和醫療等多個領域中，實作即時、個人化和安全套用的新可能。

透過本地處理數據，減少對雲端運算基礎設施的依賴，邊緣計算搭配 SLM 能夠實作更快的響應時間、更好的數據私密保護和更優的使用者體驗。這種去中心化的 AI 技術套用方式將徹底改變企業和消費者與技術的互動方式，為現實世界帶來更個人化、更直觀的體驗。面對計算資源的挑戰和可能的效能瓶頸，SLM 的興起預示著 AI 生態系將以驚人的速度持續演變。

如喜歡本文，請點選右上角，把文章分享到朋友圈
如有想了解學習的技術點，請留言給若飛安排分享

因公眾號更改推播規則，請點「在看」並加「星標」第一時間獲取精彩技術分享

·END·

相關閱讀：

作者：李鵬

來源：AI大模型實驗室

原文：https://venturebeat.com/ai/why-small-language-models-are-the-next-big-thing-in-ai/

版權申明：內容來源網路，僅供學習研究，版權歸原創者所有。如有侵權煩請告知，我們會立即刪除並表示歉意。謝謝!

架構師

我們都是架構師！