HuggingFace昨天開源了一個名為"speech-to-speech"的計畫,這是一個開源的、模組化的GPT-4級語音對話系統。
這個計畫整合了多個大家常用的AI模型,實作了從語音輸入到語音輸出的端到端對話能力,無需文本作為中間媒介。
掃碼加入AI交流群
獲得更多技術支持和交流
(請註明自己的職業)
計畫架構
S2S 采用級聯式管道結構,包含以下四個主要元件:
1.語音活動檢測(VAD): 使用Silero VAD v5模型
2.語音辨識(STT): 使用Whisper模型,包括其蒸餾版本
3.語言模型(LM): 可使用Hugging Face Hub上的任何指令型模型
4.語音合成(TTS): 使用Parler-TTS模型
模組化設計
計畫的一大特點是其高度模組化的設計。每個元件都可以根據需要靈活替換或修改:
· VAD模組使用Silero的開源實作
· STT模組可以使用任何Whisper檢查點,如Distil-Whisper等
· LM模組完全可替換,只需修改Hugging Face模型ID即可
· TTS模組使用Parler-TTS,但可以使用不同的檢查點包括多語言模型
程式碼結構也便於修改,每個元件都被實作為一個類,可以根據特定需求重新實作。
技術亮點
1. 整合了多個前沿AI模型,實作端到端的語音對話
2. 高度模組化的設計,便於替換和客製各個元件
3. 支持伺服器/客戶端和本地兩種執行模式
4. 提供Docker容器支持,方便部署
5. 豐富的命令列參數,靈活可控
使用方法
該計畫支持兩種執行方式:
1.伺服器/客戶端模式: 模型在伺服器上執行,音訊透過客戶端流式傳輸
2.本地模式: 在本地機器上執行整個管道
對於伺服器模式,還提供了Docker容器支持,方便部署。
計畫還提供了豐富的命令列參數,可以靈活控制各個模組的行為,如模型選擇、生成參數等。
結語
這個計畫為構建開放、可客製的語音對話系統提供了一個很好的起點。研究人員和開發者可以基於此進行進一步的改進和套用開發,推動語音互動技術的發展。
計畫連結
https://github.com/huggingface/speech-to-speech
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 向量光年 」公眾號
加速全行業向AI轉變
關註「 AGI光年 」公眾號
獲取每日最新資訊
更多AI資訊,盡在www.dongaigc.com