當前位置: 妍妍網 > 資訊

整合升級BTM和MoE,大模型專業領域能力高效訓練法BTX誕生

2024-03-15資訊

整理丨王軼群

出品丨AI 科技大本營(ID:rgznai100)

整合多個專家大模型到一個混合專家大模型(Mixing Expert LLMs into a Mixture-of-Experts LLM),Meta在人工智慧機器學習領域取得新的高效方法突破。

最近,Meta基礎人工智慧研究(FAIR)團隊釋出了名為Branch-Train-MiX (BTX)的方法,可從種子模型開始,該模型經過分支,以高吞吐量和低通訊成本的並列方式訓練專家模型。Meta FAIR的成員之一Jason Weston在其X上發文介紹了這一進展。

BTX能夠提高大型語言模型(LLMs)在多個專業領域的能力,如編程、數學推理、世界知識等細分專業領域。這些專家模型在訓練後,其前饋參數被整合到混合專家(Mixture-of-Expert, MoE)層中,並進行平均參數的MoE微調,以學習在token級別上的路由。

BTX概括了兩種特殊情況,即沒有MoE微調階段來學習路由的BTM(Branch-Train-Merge)方法,以及省略了異步訓練專家階段的稀疏升級方法,是BTM與MoE兩種方法的優勢結合與改進。

與其他方法相比,BTX 實作了高準確性與效率的權衡。與Branch-Train-Merge相比,BTX最終模型是一個統一的神經網路,可以進行進一步的監督微調(SFT)或人類反饋強化學習(RLHF)微調。與純MoE訓練相比,BTX在計算效率、訓練吞吐量,以及不同領域的任務上都表現得更為出色。

研究團隊在實驗使用了Llama-2 7B模型作為種子模型,並在數學、編程和維基百科等不同數據子集上訓練專家LLMs。透過將原始Llama-2 7B權重作為第四個專家模型加入,研究者們對合並後的MoE模型進行了相對較短的微調。

實驗結果表明,BTX模型在多個領域的任務上相比種子模型有顯著提升,尤其是在數學和編程相關任務上,同時保留了在原始能力上的表現,避免了災難性遺忘。BTX在所有任務上都優於BTM,展示了透過MoE微調學習路由的好處。與稀疏上迴圈(sparse upcycling)等純MoE訓練相比,BTX在計算效率上更優,訓練吞吐量更高,且在編碼、數學推理和維基百科不同領域的任務上表現更平衡。

J ason Weston是美國 Meta AI 的研究科學家,也是紐約大學的客座研究教授。 他的興趣在於先進的機器智慧,重點關註的領域是推理、記憶、感知、互動和通訊。 他發表過100 多篇論文,並獲得了ICML(國際機器學習大會)和ECML(歐洲機器學習大會)最佳論文獎。 他憑借與Ronan Collobert 合作完成的一篇論文作品【自然語言處理的統一架構: 具有多工學習的深度神經網路】,在2008年獲得ICML時間考驗獎。

Jason Weston所在的Meta的基礎人工智慧研究(FAIR)團隊,致力於進一步加深人們對新領域和現有領域的基本理解,研究領域涵蓋人工智慧相關的所有主題。