当前位置: 欣欣网 > 码农

阿里开源的声音克隆TTS重磅升级,CosyVoice2支持流式输出,更加流畅自然,用户。

2024-12-19码农

最近经常看到有小伙伴在问,哪个开源的TTS好。

阿里的CosyVoice终于迎来重大升级,化身CosyVoice2。

它最大的亮点是流式合成输出。

这个开源项目一定会让非常多的软件、硬件交互体验提升一个档次。

讲下原因,互动性的AI产品,比如AI陪伴等,产品体验要好, 必须把AI回答的延迟降到最低。

想要延迟低,就必须想办法在各个环节降时间,ASR、LLM部分方案已经很多了,但是TTS方案确实是比较少,大部分方案开发周期比较长,问题在于流式这部分做不好。

像是豆包等产品的API已经有流式了,但是价格上确实是不低,尤其是加上声音克隆,成本太高,用户也难以接受。

CosyVoice 2在各方面做得都不错,粉丝朋友们可以尝试。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

CosyVoice 2是阿里巴巴开发的流式语音合成模型,它通过整合大型语言模型,实现了高质量的语音合成。该模型支持流式和非流式合成,采用有限标量量化技术提高语音信息捕捉,简化模型架构,并开发了块感知因果流匹配模型以适应不同合成场景。CosyVoice 2在保持人类同等自然度的同时,几乎无损地实现了流式模式下的合成质量。

DEMO

各方面能力都很强,咱们一个一个来看。

1、普通的音频克隆。

输入音频

输出音频

2、跨语言声音克隆

输入音频

输出音频

3、有情感的音频合成

快乐的

生气的

4、顺口溜

5、角色扮演

6、方言

粤语

上海话

2.0版本亮点


语言支持


  • 支持语言:中文、英文、日语、韩语、中国方言(粤语、四川话、上海话、天津话、武汉话等)

  • 跨语言和混合语言:支持跨语言和代码切换场景的零样本语音克隆。

  • 超低延迟

  • 双向流支持:CosyVoice 2.0 集成了离线和流建模技术。

  • 快速首包合成:实现低至 150 毫秒的延迟,同时保持高质量的音频输出。

  • 高精度

  • 改进发音:与 CosyVoice 1.0 相比,发音错误减少了 30% 到 50%。

  • 基准测试成果:在Seed-TTS评估集的硬测试集上取得最低的字符错误率。

  • 稳定性强

  • 音色一致性:确保零样本和跨语言语音合成的可靠语音一致性。

  • 跨语言合成:与 1.0 版本相比有显著的改进。

  • 自然体验

  • 增强韵律和音质:改进了合成音频的对齐,将 MOS 评估分数从 5.4 提高到 5.53。

  • 情感和方言灵活性:现在支持更细致的情感控制和口音调整。

  • 项目链接

    https://github.com/FunAudioLLM/CosyVoice

    关注「 开源AI项目落地 」公众号

    与AI时代更靠近一点

    关注「 AGI光年 」公众号

    获取每日最新资讯

    关注「 向量光年 」公众号

    加速全行业向AI转变