本期项目整理:TTS(文本转语音)
AI的开源项目越来越多了,大家肯定是看的眼花缭乱
我推荐的项目都是仔细筛选过的 ,因为我们自己也在帮很多客户开发AI软件,调研方案也会翻看大量的开源项目,能用得上的、有商用价值的才算是一个好的开源项目
看过大家的一些反馈,可能在找开源项目的时候还是有点迷茫,不知道有哪些能用,或者说不知道相同功能的开源项目有什么区别、怎么选择
所以 我决定还是要定期给大家整理一下 ,起码要让大家在AI开源项目的选择上选的对、选的快
如果有任何的补充或者纠正,感谢大家在评论区贡献出自己的知识,当然也欢迎大家进群一起聊聊
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
注:排序不等于排名,按需选择就好
1. Fish Speech
Github 5.1k stars
最近更新时间:7月11日
功能:声音克隆
特点:对中文做了特殊训练,中文的效果还不错。但是生成长音频效果不是很好,对英文的支持度还有欠缺
项目链接:
https://github.com/fishaudio/fish-speech
2. ChatTTS
Github 27.5k stars
最近更新时间:7月8日
功能:持多语种和多发音人,可以控制细粒度的韵律特征如笑声、停顿和语调
特点:能控制笑声、停顿、语气词,但不是完全准确,只支持中英文,可以调节参数,但参数相同时生成的语音也不一定相同
项目链接:
https://github.com/2noise/ChatTTS
3. MARS5-TTS
Github 2.2k stars
最近更新时间:7月5日
功能:声音克隆
特点:对样本音频要求比较小,只需要2-12秒的参考音频。支持深度和浅度克隆选项。情感更逼真。只能识别单人音频克隆,不能实现对话
项目链接:
https://github.com/camb-ai/mars5-tts
4. GPT-SoVITS
Github 29k stars
最近更新时间:7月11日
功能:声音克隆
特点:仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。输入 5 秒的声音样本,即刻体验文本到语音转换。适应不同语言环境和声音需求。支持中英日。在 Mac 上使用 GPU 训练的模型效果显著低于其他设备训练的模型。本地运行,无需联网
项目链接:
https://github.com/RVC-Boss/GPT-SoVITS
5. IMS-Toucan
Github 1.3k stars
最近更新时间:7月9日
功能:文本转语音
特点:7000种语言,包括各地的方言。所有内容都是纯 Python 和 PyTorch 编写的。人机编辑功能,可以根据自己的需求和品味对合成语音进行微调。安装和配置过程可能较为复杂,尤其是在非Linux系统上
项目链接:
https://github.com/DigitalPhonetics/IMS-Toucan
6. OpenVoice
Github 27.2k stars
最近更新时间:7月6日
功能:声音克隆
特点:可以调节情感、说话风格、停顿等。支持跨语言声音克隆。对中文的效果支持较差。允许商用
项目链接:
https://github.com/myshell-ai/OpenVoice
TTS的开源项目还有很多,大家有什么补充可以在评论区发表,也可以进群交流。如果说项目里对质量和稳定度要求比较高、而且又对本地化不是特别重视,也有非开源的,ElevenLabs的效果很好,Heygen中的语音克隆部分也是用的11labs的服务
有时间时候会多给大家整理一些不同功能可选择的项目。另外最近在考虑一个问题,是不是有必要也给大家整理下可落地的项目,或者已经落地项目的拆解。有好建议也可以随时跟我说
关注「 开源AI项目落地 」公众号
与AI时代更靠近一点
关注「 向量光年 」公众号
加速全行业向AI转变
关注「 AGI光年 」公众号
获取每日最新资讯