F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

2024-10-14码农

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

要是开源的效果足够好，哪怕是达到11labs 80%的效果，我是肯定不会愿意付那美金再跑回来赚那辛苦钱。

上海交大开源的F5-TTS实测下来确实是还不错了。

不敢说他比11labs好，毕竟11labs做了那么久优化的确实已经很好了，但是F5-TTS的效果肯定可以说是还不错了。

又一个达到商用效果的开源来了！只是别被缅北拿去就好。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

F5-TTS是一款基于流匹配的全非自回归文本到语音转换系统。不需要复杂的设计如持续时间模型、文本编码器和音素对齐，能够快速训练并实现实时因素（RTF）0.15的推理速度，显著优于当前基于扩散的TTS模型。F5-TTS在公共的100K小时多语言数据集上进行训练，展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。项目提出了一种推理时的摇摆采样策略，显著提高了模型的性能和效率。

DEMO

两段音频是一组，上面是原音频，下面是克隆的。

这是官方给到的DEMO，克隆的结果简直太逼真了！

下面这是我自己做的。效果是很好，只是不理解为什么读到「AI」的时候加了电音，是想让AI行业更潮一点吗？

技术亮点

1、全非自回归架构：

传统的文本到语音(TTS)系统多使用自回归模型，这种模型一次生成一个音频片段，处理速度较慢。

F5-TTS采用全非自回归模型，能够并行处理整个语音合成任务，显著提高了处理速度和效率。

2、流匹配技术：

F5-TTS中采用了先进的流匹配技术，这是一种基于最优传输路径的方法，用于改进生成模型的学习过程。

该技术允许模型更精确地模拟目标数据的分布，从而提高合成语音的自然性和准确性。

3、Diffusion Transformer（DiT）的应用：