開源TTS專題：選對適合你的TTS模型，無廢話都是知識

2024-07-11碼農

本期計畫整理：TTS（文本轉語音）

AI的開源計畫越來越多了，大家肯定是看的眼花繚亂

我推薦的計畫都是仔細篩選過的，因為我們自己也在幫很多客戶開發AI軟體，調研方案也會翻看大量的開源計畫，能用得上的、有商用價值的才算是一個好的開源計畫

看過大家的一些反饋，可能在找開源計畫的時候還是有點迷茫，不知道有哪些能用，或者說不知道相同功能的開源計畫有什麽區別、怎麽選擇

所以我決定還是要定期給大家整理一下，起碼要讓大家在AI開源計畫的選擇上選的對、選的快

如果有任何的補充或者糾正，感謝大家在評論區貢獻出自己的知識，當然也歡迎大家進群一起聊聊

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

註：排序不等於排名，按需選擇就好

1. Fish Speech

Github 5.1k stars

最近更新時間：7月11日

功能：聲音複制

特點：對中文做了特殊訓練，中文的效果還不錯。但是生成長音訊效果不是很好，對英文的支持度還有欠缺

計畫連結：

https://github.com/fishaudio/fish-speech

2. ChatTTS

Github 27.5k stars

最近更新時間：7月8日

功能：持多語種和多發音人，可以控制細粒度的韻律特征如笑聲、停頓和語調

特點：能控制笑聲、停頓、語氣詞，但不是完全準確，只支持中英文，可以調節參數，但參數相同時生成的語音也不一定相同

計畫連結：

https://github.com/2noise/ChatTTS

3. MARS5-TTS

Github 2.2k stars

最近更新時間：7月5日

功能：聲音複制

特點：對樣本音訊要求比較小，只需要2-12秒的參考音訊。支持深度和淺度複制選項。情感更逼真。只能辨識單人音訊複制，不能實作對話

計畫連結：

https://github.com/camb-ai/mars5-tts

4. GPT-SoVITS

Github 29k stars

最近更新時間：7月11日

功能：聲音複制

特點：僅需 1 分鐘的訓練數據即可微調模型，提升聲音相似度和真實感。輸入 5 秒的聲音樣本，即刻體驗文本到語音轉換。適應不同語言環境和聲音需求。支持中英日。在 Mac 上使用 GPU 訓練的模型效果顯著低於其他裝置訓練的模型。本地執行，無需聯網

計畫連結：

https://github.com/RVC-Boss/GPT-SoVITS

5. IMS-Toucan

Github 1.3k stars

最近更新時間：7月9日

功能：文本轉語音

特點：7000種語言，包括各地的方言。所有內容都是純 Python 和 PyTorch 編寫的。人機編輯功能，可以根據自己的需求和品味對合成語音進行微調。安裝和配置過程可能較為復雜，尤其是在非Linux系統上

計畫連結：

https://github.com/DigitalPhonetics/IMS-Toucan

6. OpenVoice

Github 27.2k stars

最近更新時間：7月6日

功能：聲音複制

特點：可以調節情感、說話風格、停頓等。支持跨語言聲音複制。對中文的效果支持較差。允許商用

計畫連結：

https://github.com/myshell-ai/OpenVoice

TTS的開源計畫還有很多，大家有什麽補充可以在評論區發表，也可以進群交流。如果說計畫裏對品質和穩定度要求比較高、而且又對在地化不是特別重視，也有非開源的，ElevenLabs的效果很好，Heygen中的語音複制部份也是用的11labs的服務

有時間時候會多給大家整理一些不同功能可選擇的計畫。另外最近在考慮一個問題，是不是有必要也給大家整理下可落地的計畫，或者已經落地計畫的拆解。有好建議也可以隨時跟我說

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 向量光年 」公眾號

加速全行業向AI轉變

關註「 AGI光年」公眾號

獲取每日最新資訊