当前位置: 欣欣网 > 码农

开源TTS专题:选对适合你的TTS模型,无废话都是知识

2024-07-11码农

本期项目整理:TTS(文本转语音)

AI的开源项目越来越多了,大家肯定是看的眼花缭乱

我推荐的项目都是仔细筛选过的 ,因为我们自己也在帮很多客户开发AI软件,调研方案也会翻看大量的开源项目,能用得上的、有商用价值的才算是一个好的开源项目

看过大家的一些反馈,可能在找开源项目的时候还是有点迷茫,不知道有哪些能用,或者说不知道相同功能的开源项目有什么区别、怎么选择

所以 我决定还是要定期给大家整理一下 ,起码要让大家在AI开源项目的选择上选的对、选的快

如果有任何的补充或者纠正,感谢大家在评论区贡献出自己的知识,当然也欢迎大家进群一起聊聊

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

注:排序不等于排名,按需选择就好

1. Fish Speech

Github 5.1k stars

最近更新时间:7月11日

功能:声音克隆

特点:对中文做了特殊训练,中文的效果还不错。但是生成长音频效果不是很好,对英文的支持度还有欠缺

项目链接:

https://github.com/fishaudio/fish-speech

2. ChatTTS

Github 27.5k stars

最近更新时间:7月8日

功能:持多语种和多发音人,可以控制细粒度的韵律特征如笑声、停顿和语调

特点:能控制笑声、停顿、语气词,但不是完全准确,只支持中英文,可以调节参数,但参数相同时生成的语音也不一定相同

项目链接:

https://github.com/2noise/ChatTTS

3. MARS5-TTS

Github 2.2k stars

最近更新时间:7月5日

功能:声音克隆

特点:对样本音频要求比较小,只需要2-12秒的参考音频。支持深度和浅度克隆选项。情感更逼真。只能识别单人音频克隆,不能实现对话

项目链接:

https://github.com/camb-ai/mars5-tts

4. GPT-SoVITS

Github 29k stars

最近更新时间:7月11日

功能:声音克隆

特点:仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。输入 5 秒的声音样本,即刻体验文本到语音转换。适应不同语言环境和声音需求。支持中英日。在 Mac 上使用 GPU 训练的模型效果显著低于其他设备训练的模型。本地运行,无需联网

项目链接:

https://github.com/RVC-Boss/GPT-SoVITS

5. IMS-Toucan

Github 1.3k stars

最近更新时间:7月9日

功能:文本转语音

特点:7000种语言,包括各地的方言。所有内容都是纯 Python 和 PyTorch 编写的。人机编辑功能,可以根据自己的需求和品味对合成语音进行微调。安装和配置过程可能较为复杂,尤其是在非Linux系统上

项目链接:

https://github.com/DigitalPhonetics/IMS-Toucan

6. OpenVoice

Github 27.2k stars

最近更新时间:7月6日

功能:声音克隆

特点:可以调节情感、说话风格、停顿等。支持跨语言声音克隆。对中文的效果支持较差。允许商用

项目链接:

https://github.com/myshell-ai/OpenVoice

TTS的开源项目还有很多,大家有什么补充可以在评论区发表,也可以进群交流。如果说项目里对质量和稳定度要求比较高、而且又对本地化不是特别重视,也有非开源的,ElevenLabs的效果很好,Heygen中的语音克隆部分也是用的11labs的服务

有时间时候会多给大家整理一些不同功能可选择的项目。另外最近在考虑一个问题,是不是有必要也给大家整理下可落地的项目,或者已经落地项目的拆解。有好建议也可以随时跟我说

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 向量光年 」公众号

加速全行业向AI转变

关注「 AGI光年 」公众号

获取每日最新资讯