当前位置: 欣欣网 > 码农

F5-TTS:上海交大开源超逼真声音克隆TTS,告别ElevenLabs,以后就用它了!实测真的很牛

2024-10-14码农

音频克隆的开源项目很多,但是每次项目里要用的时候,总还是惦记着11labs的api。

要是开源的效果足够好,哪怕是达到11labs 80%的效果,我是肯定不会愿意付那美金再跑回来赚那辛苦钱。

上海交大开源的F5-TTS实测下来确实是还不错了。

不敢说他比11labs好,毕竟11labs做了那么久优化的确实已经很好了,但是F5-TTS的效果肯定可以说是还不错了。

又一个达到商用效果的开源来了! 只是别被缅北拿去就好。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

F5-TTS是一款基于流匹配的全非自回归文本到语音转换系统。不需要复杂的设计如持续时间模型、文本编码器和音素对齐,能够快速训练并实现实时因素(RTF)0.15的推理速度,显著优于当前基于扩散的TTS模型。F5-TTS在公共的100K小时多语言数据集上进行训练,展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。项目提出了一种推理时的摇摆采样策略,显著提高了模型的性能和效率。

DEMO

两段音频是一组,上面是原音频,下面是克隆的。

这是官方给到的DEMO,克隆的结果简直太逼真了!

下面这是我自己做的。效果是很好,只是不理解为什么读到「AI」的时候加了电音,是想让AI行业更潮一点吗?

技术亮点

1、全非自回归架构:

  • 传统的文本到语音(TTS)系统多使用自回归模型,这种模型一次生成一个音频片段,处理速度较慢。

  • F5-TTS采用全非自回归模型,能够并行处理整个语音合成任务,显著提高了处理速度和效率。

  • 2、流匹配技术:

  • F5-TTS中采用了先进的流匹配技术,这是一种基于最优传输路径的方法,用于改进生成模型的学习过程。

  • 该技术允许模型更精确地模拟目标数据的分布,从而提高合成语音的自然性和准确性。

  • 3、Diffusion Transformer(DiT)的应用:

  • F5-TTS利用了Diffusion Transformer,这是一种结合了扩散模型的Transformer结构,专门用于处理生成任务中的对齐和数据生成问题。

  • DiT可以在保持文本到语音合成高质量的同时,提供更快的响应时间和更低的资源消耗。

  • 4、Sway Sampling策略:

  • 在推理时,F5-TTS引入了Sway Sampling策略,这是一种新颖的采样方法,用于在模型的流步骤中更有效地选择样本。

  • 这种方法可以进一步提升语音生成的自然度和可理解性,同时保持与原始文本的高度一致性。

  • 5、简化的训练流程:

  • 相比传统模型,F5-TTS不需要复杂的组件如持续时间预测器、文本编码器或音素对齐模块。

  • 这种简化大大降低了模型的复杂性,使得训练过程更快,同时降低了对计算资源的需求。

  • 6、高性能和多语言支持:

  • F5-TTS在公共的100K小时多语言数据集上进行训练,展示了其对多种语言的高自然处理能力。

  • 该模型支持无缝的代码切换能力和速度控制,使其在多样化的应用场景中表现出色。

  • 项目链接

    https://www.dongaigc.com/p/SWivid/F5-TTS/?a=123

    这是个综合链接,模型点Github,试用点Huggingface。

    关注「 开源AI项目落地 」公众号

    与AI时代更靠近一点

    关注「 向量光年 」公众号

    加速全行业向AI转变

    关注「 AGI光年 」公众号

    获取每日最新资讯