當前位置: 妍妍網 > 碼農

GPT-4o語音對話開源版,HuggingFace官方出品,必屬精品

2024-08-27碼農

HuggingFace昨天開源了一個名為"speech-to-speech"的計畫,這是一個開源的、模組化的GPT-4級語音對話系統。

這個計畫整合了多個大家常用的AI模型,實作了從語音輸入到語音輸出的端到端對話能力,無需文本作為中間媒介。

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫架構

S2S 采用級聯式管道結構,包含以下四個主要元件:

1.語音活動檢測(VAD): 使用Silero VAD v5模型

2.語音辨識(STT): 使用Whisper模型,包括其蒸餾版本

3.語言模型(LM): 可使用Hugging Face Hub上的任何指令型模型

4.語音合成(TTS): 使用Parler-TTS模型

模組化設計

計畫的一大特點是其高度模組化的設計。每個元件都可以根據需要靈活替換或修改:

· VAD模組使用Silero的開源實作

· STT模組可以使用任何Whisper檢查點,如Distil-Whisper等

· LM模組完全可替換,只需修改Hugging Face模型ID即可

· TTS模組使用Parler-TTS,但可以使用不同的檢查點包括多語言模型

程式碼結構也便於修改,每個元件都被實作為一個類,可以根據特定需求重新實作。

技術亮點

1. 整合了多個前沿AI模型,實作端到端的語音對話

2. 高度模組化的設計,便於替換和客製各個元件

3. 支持伺服器/客戶端和本地兩種執行模式

4. 提供Docker容器支持,方便部署

5. 豐富的命令列參數,靈活可控

使用方法

該計畫支持兩種執行方式:

1.伺服器/客戶端模式: 模型在伺服器上執行,音訊透過客戶端流式傳輸

2.本地模式: 在本地機器上執行整個管道

對於伺服器模式,還提供了Docker容器支持,方便部署。

計畫還提供了豐富的命令列參數,可以靈活控制各個模組的行為,如模型選擇、生成參數等。

結語

這個計畫為構建開放、可客製的語音對話系統提供了一個很好的起點。研究人員和開發者可以基於此進行進一步的改進和套用開發,推動語音互動技術的發展。

計畫連結

https://github.com/huggingface/speech-to-speech

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 向量光年 」公眾號

加速全行業向AI轉變

關註「 AGI光年 」公眾號

獲取每日最新資訊

更多AI資訊,盡在www.dongaigc.com