整合升級BTM和MoE，大模型專業領域能力高效訓練法BTX誕生

2024-03-15資訊

整理丨王軼群

出品丨AI 科技大本營（ID：rgznai100）

整合多個專家大模型到一個混合專家大模型（Mixing Expert LLMs into a Mixture-of-Experts LLM），Meta在人工智慧機器學習領域取得新的高效方法突破。

最近，Meta基礎人工智慧研究（FAIR）團隊釋出了名為Branch-Train-MiX (BTX)的方法，可從種子模型開始，該模型經過分支，以高吞吐量和低通訊成本的並列方式訓練專家模型。Meta FAIR的成員之一Jason Weston在其X上發文介紹了這一進展。

BTX能夠提高大型語言模型（LLMs）在多個專業領域的能力，如編程、數學推理、世界知識等細分專業領域。這些專家模型在訓練後，其前饋參數被整合到混合專家（Mixture-of-Expert, MoE）層中，並進行平均參數的MoE微調，以學習在token級別上的路由。

BTX概括了兩種特殊情況，即沒有MoE微調階段來學習路由的BTM（Branch-Train-Merge）方法，以及省略了異步訓練專家階段的稀疏升級方法，是BTM與MoE兩種方法的優勢結合與改進。

與其他方法相比，BTX 實作了高準確性與效率的權衡。與Branch-Train-Merge相比，BTX最終模型是一個統一的神經網路，可以進行進一步的監督微調（SFT）或人類反饋強化學習（RLHF）微調。與純MoE訓練相比，BTX在計算效率、訓練吞吐量，以及不同領域的任務上都表現得更為出色。

研究團隊在實驗使用了Llama-2 7B模型作為種子模型，並在數學、編程和維基百科等不同數據子集上訓練專家LLMs。透過將原始Llama-2 7B權重作為第四個專家模型加入，研究者們對合並後的MoE模型進行了相對較短的微調。

實驗結果表明，BTX模型在多個領域的任務上相比種子模型有顯著提升，尤其是在數學和編程相關任務上，同時保留了在原始能力上的表現，避免了災難性遺忘。BTX在所有任務上都優於BTM，展示了透過MoE微調學習路由的好處。與稀疏上迴圈（sparse upcycling）等純MoE訓練相比，BTX在計算效率上更優，訓練吞吐量更高，且在編碼、數學推理和維基百科不同領域的任務上表現更平衡。

J ason Weston是美國 Meta AI 的研究科學家，也是紐約大學的客座研究教授。他的興趣在於先進的機器智慧，重點關註的領域是推理、記憶、感知、互動和通訊。他發表過100 多篇論文，並獲得了ICML（國際機器學習大會）和ECML（歐洲機器學習大會）最佳論文獎。他憑借與Ronan Collobert 合作完成的一篇論文作品【自然語言處理的統一架構：具有多工學習的深度神經網路】，在2008年獲得ICML時間考驗獎。

Jason Weston所在的Meta的基礎人工智慧研究（FAIR）團隊，致力於進一步加深人們對新領域和現有領域的基本理解，研究領域涵蓋人工智慧相關的所有主題。