當前位置: 妍妍網 > 碼農

開源TTS專題:選對適合你的TTS模型,無廢話都是知識

2024-07-11碼農

本期計畫整理:TTS(文本轉語音)

AI的開源計畫越來越多了,大家肯定是看的眼花繚亂

我推薦的計畫都是仔細篩選過的 ,因為我們自己也在幫很多客戶開發AI軟體,調研方案也會翻看大量的開源計畫,能用得上的、有商用價值的才算是一個好的開源計畫

看過大家的一些反饋,可能在找開源計畫的時候還是有點迷茫,不知道有哪些能用,或者說不知道相同功能的開源計畫有什麽區別、怎麽選擇

所以 我決定還是要定期給大家整理一下 ,起碼要讓大家在AI開源計畫的選擇上選的對、選的快

如果有任何的補充或者糾正,感謝大家在評論區貢獻出自己的知識,當然也歡迎大家進群一起聊聊

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

註:排序不等於排名,按需選擇就好

1. Fish Speech

Github 5.1k stars

最近更新時間:7月11日

功能:聲音複制

特點:對中文做了特殊訓練,中文的效果還不錯。但是生成長音訊效果不是很好,對英文的支持度還有欠缺

計畫連結:

https://github.com/fishaudio/fish-speech

2. ChatTTS

Github 27.5k stars

最近更新時間:7月8日

功能:持多語種和多發音人,可以控制細粒度的韻律特征如笑聲、停頓和語調

特點:能控制笑聲、停頓、語氣詞,但不是完全準確,只支持中英文,可以調節參數,但參數相同時生成的語音也不一定相同

計畫連結:

https://github.com/2noise/ChatTTS

3. MARS5-TTS

Github 2.2k stars

最近更新時間:7月5日

功能:聲音複制

特點:對樣本音訊要求比較小,只需要2-12秒的參考音訊。支持深度和淺度複制選項。情感更逼真。只能辨識單人音訊複制,不能實作對話

計畫連結:

https://github.com/camb-ai/mars5-tts

4. GPT-SoVITS

Github 29k stars

最近更新時間:7月11日

功能:聲音複制

特點:僅需 1 分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。輸入 5 秒的聲音樣本,即刻體驗文本到語音轉換。適應不同語言環境和聲音需求。支持中英日。在 Mac 上使用 GPU 訓練的模型效果顯著低於其他裝置訓練的模型。本地執行,無需聯網

計畫連結:

https://github.com/RVC-Boss/GPT-SoVITS

5. IMS-Toucan

Github 1.3k stars

最近更新時間:7月9日

功能:文本轉語音

特點:7000種語言,包括各地的方言。所有內容都是純 Python 和 PyTorch 編寫的。人機編輯功能,可以根據自己的需求和品味對合成語音進行微調。安裝和配置過程可能較為復雜,尤其是在非Linux系統上

計畫連結:

https://github.com/DigitalPhonetics/IMS-Toucan

6. OpenVoice

Github 27.2k stars

最近更新時間:7月6日

功能:聲音複制

特點:可以調節情感、說話風格、停頓等。支持跨語言聲音複制。對中文的效果支持較差。允許商用

計畫連結:

https://github.com/myshell-ai/OpenVoice

TTS的開源計畫還有很多,大家有什麽補充可以在評論區發表,也可以進群交流。如果說計畫裏對品質和穩定度要求比較高、而且又對在地化不是特別重視,也有非開源的,ElevenLabs的效果很好,Heygen中的語音複制部份也是用的11labs的服務

有時間時候會多給大家整理一些不同功能可選擇的計畫。另外最近在考慮一個問題,是不是有必要也給大家整理下可落地的計畫,或者已經落地計畫的拆解。有好建議也可以隨時跟我說

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 向量光年 」公眾號

加速全行業向AI轉變

關註「 AGI光年 」公眾號

獲取每日最新資訊