Mini-Omni：第一個開源即時語音互動模型，邊聽邊說邊思考，延遲比GPT-4o還要低

2024-09-04碼農

GPT-4o其實也做到了比較流利的即時對話，但是往往這些模型都需要外接一個TTS，就導致對話還是會產生延遲。

Mini-Omni采用了一種文本指令的語音生成方法，並在推理過程中批次並列進一步提升效能。

所以說Mini-Omni可能是第一個完整意義上的端到端即時語音互動模型。

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

計畫簡介

Mini-Omni是一個開源多模態大型語言模型，具備即時對話能力和端到端的語音輸入輸出功能。透過獨特的文本指導並列生成方法，實作了與文本能力一致的語音推理輸出，僅需極少的額外數據和模組。

Mini-Omni還引入了一種「任何模型都能說話」的創新方法，透過最小的訓練和修改，快速地將其他模型的文本處理能力轉換為語音互動能力。

DEMO

只能說，確實快。

這沒有延遲的感覺實在是太爽了！

下面圖片是流式輸出的範例

主要特點和貢獻

·端到端的多模態互動能力：

Mini-Omni不僅支持文本輸入輸出，還能處理語音訊號，實作真正的語音到語音的交流，這一點是透過文本指導並列生成技術實作的。

·高效的即時對話能力：

透過創新的並列生成和批次處理並列解碼技術，Mini-Omni能夠在對話中即時響應，顯著減少了延遲，提高了互動的自然流暢性。

·模型和數據效率：

該模型使用的是比較小的0.5B參數規模，但透過高效的訓練和最佳化策略，實作了與大模型相媲美的效能，特別是在資源有限的環境下表現出色。

·"任何模型都能說話"的方法：

這是一種新穎的方法，允許透過最小的訓練和修改，迅速將其他語言模型的文本處理能力擴充套件到語音互動領域。

·專門最佳化的數據集VoiceAssistant-400K：

為了訓練和最佳化語音輸出，Mini-Omni使用了特別開發的VoiceAssistant-400K數據集，該數據集旨在幫助模型在提供語音助手服務時減少生成程式碼符號，增強模型在真實套用中的實用性。

計畫連結

https://github.com/gpt-omni/mini-omni

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 向量光年 」公眾號

加速全行業向AI轉變

關註「 AGI光年」公眾號

獲取每日最新資訊