本期計畫整理:TTS(文本轉語音)
AI的開源計畫越來越多了,大家肯定是看的眼花繚亂
我推薦的計畫都是仔細篩選過的 ,因為我們自己也在幫很多客戶開發AI軟體,調研方案也會翻看大量的開源計畫,能用得上的、有商用價值的才算是一個好的開源計畫
看過大家的一些反饋,可能在找開源計畫的時候還是有點迷茫,不知道有哪些能用,或者說不知道相同功能的開源計畫有什麽區別、怎麽選擇
所以 我決定還是要定期給大家整理一下 ,起碼要讓大家在AI開源計畫的選擇上選的對、選的快
如果有任何的補充或者糾正,感謝大家在評論區貢獻出自己的知識,當然也歡迎大家進群一起聊聊
掃碼加入AI交流群
獲得更多技術支持和交流
(請註明自己的職業)
註:排序不等於排名,按需選擇就好
1. Fish Speech
Github 5.1k stars
最近更新時間:7月11日
功能:聲音複制
特點:對中文做了特殊訓練,中文的效果還不錯。但是生成長音訊效果不是很好,對英文的支持度還有欠缺
計畫連結:
https://github.com/fishaudio/fish-speech
2. ChatTTS
Github 27.5k stars
最近更新時間:7月8日
功能:持多語種和多發音人,可以控制細粒度的韻律特征如笑聲、停頓和語調
特點:能控制笑聲、停頓、語氣詞,但不是完全準確,只支持中英文,可以調節參數,但參數相同時生成的語音也不一定相同
計畫連結:
https://github.com/2noise/ChatTTS
3. MARS5-TTS
Github 2.2k stars
最近更新時間:7月5日
功能:聲音複制
特點:對樣本音訊要求比較小,只需要2-12秒的參考音訊。支持深度和淺度複制選項。情感更逼真。只能辨識單人音訊複制,不能實作對話
計畫連結:
https://github.com/camb-ai/mars5-tts
4. GPT-SoVITS
Github 29k stars
最近更新時間:7月11日
功能:聲音複制
特點:僅需 1 分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。輸入 5 秒的聲音樣本,即刻體驗文本到語音轉換。適應不同語言環境和聲音需求。支持中英日。在 Mac 上使用 GPU 訓練的模型效果顯著低於其他裝置訓練的模型。本地執行,無需聯網
計畫連結:
https://github.com/RVC-Boss/GPT-SoVITS
5. IMS-Toucan
Github 1.3k stars
最近更新時間:7月9日
功能:文本轉語音
特點:7000種語言,包括各地的方言。所有內容都是純 Python 和 PyTorch 編寫的。人機編輯功能,可以根據自己的需求和品味對合成語音進行微調。安裝和配置過程可能較為復雜,尤其是在非Linux系統上
計畫連結:
https://github.com/DigitalPhonetics/IMS-Toucan
6. OpenVoice
Github 27.2k stars
最近更新時間:7月6日
功能:聲音複制
特點:可以調節情感、說話風格、停頓等。支持跨語言聲音複制。對中文的效果支持較差。允許商用
計畫連結:
https://github.com/myshell-ai/OpenVoice
TTS的開源計畫還有很多,大家有什麽補充可以在評論區發表,也可以進群交流。如果說計畫裏對品質和穩定度要求比較高、而且又對在地化不是特別重視,也有非開源的,ElevenLabs的效果很好,Heygen中的語音複制部份也是用的11labs的服務
有時間時候會多給大家整理一些不同功能可選擇的計畫。另外最近在考慮一個問題,是不是有必要也給大家整理下可落地的計畫,或者已經落地計畫的拆解。有好建議也可以隨時跟我說
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 向量光年 」公眾號
加速全行業向AI轉變
關註「 AGI光年 」公眾號
獲取每日最新資訊