开源TTS专题：选对适合你的TTS模型，无废话都是知识

2024-07-11码农

本期项目整理：TTS（文本转语音）

AI的开源项目越来越多了，大家肯定是看的眼花缭乱

我推荐的项目都是仔细筛选过的，因为我们自己也在帮很多客户开发AI软件，调研方案也会翻看大量的开源项目，能用得上的、有商用价值的才算是一个好的开源项目

看过大家的一些反馈，可能在找开源项目的时候还是有点迷茫，不知道有哪些能用，或者说不知道相同功能的开源项目有什么区别、怎么选择

所以我决定还是要定期给大家整理一下，起码要让大家在AI开源项目的选择上选的对、选的快

如果有任何的补充或者纠正，感谢大家在评论区贡献出自己的知识，当然也欢迎大家进群一起聊聊

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

注：排序不等于排名，按需选择就好

1. Fish Speech

Github 5.1k stars

最近更新时间：7月11日

功能：声音克隆

特点：对中文做了特殊训练，中文的效果还不错。但是生成长音频效果不是很好，对英文的支持度还有欠缺

项目链接：

https://github.com/fishaudio/fish-speech

2. ChatTTS

Github 27.5k stars

最近更新时间：7月8日

功能：持多语种和多发音人，可以控制细粒度的韵律特征如笑声、停顿和语调

特点：能控制笑声、停顿、语气词，但不是完全准确，只支持中英文，可以调节参数，但参数相同时生成的语音也不一定相同

项目链接：

https://github.com/2noise/ChatTTS

3. MARS5-TTS

Github 2.2k stars

最近更新时间：7月5日

功能：声音克隆

特点：对样本音频要求比较小，只需要2-12秒的参考音频。支持深度和浅度克隆选项。情感更逼真。只能识别单人音频克隆，不能实现对话

项目链接：

https://github.com/camb-ai/mars5-tts

4. GPT-SoVITS

Github 29k stars

最近更新时间：7月11日

功能：声音克隆

特点：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。输入 5 秒的声音样本，即刻体验文本到语音转换。适应不同语言环境和声音需求。支持中英日。在 Mac 上使用 GPU 训练的模型效果显著低于其他设备训练的模型。本地运行，无需联网

项目链接：

https://github.com/RVC-Boss/GPT-SoVITS

5. IMS-Toucan

Github 1.3k stars

最近更新时间：7月9日

功能：文本转语音

特点：7000种语言，包括各地的方言。所有内容都是纯 Python 和 PyTorch 编写的。人机编辑功能，可以根据自己的需求和品味对合成语音进行微调。安装和配置过程可能较为复杂，尤其是在非Linux系统上

项目链接：

https://github.com/DigitalPhonetics/IMS-Toucan

6. OpenVoice

Github 27.2k stars

最近更新时间：7月6日

功能：声音克隆

特点：可以调节情感、说话风格、停顿等。支持跨语言声音克隆。对中文的效果支持较差。允许商用

项目链接：

https://github.com/myshell-ai/OpenVoice

TTS的开源项目还有很多，大家有什么补充可以在评论区发表，也可以进群交流。如果说项目里对质量和稳定度要求比较高、而且又对本地化不是特别重视，也有非开源的，ElevenLabs的效果很好，Heygen中的语音克隆部分也是用的11labs的服务

有时间时候会多给大家整理一些不同功能可选择的项目。另外最近在考虑一个问题，是不是有必要也给大家整理下可落地的项目，或者已经落地项目的拆解。有好建议也可以随时跟我说

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 向量光年 」公众号

加速全行业向AI转变

关注「 AGI光年」公众号

获取每日最新资讯