阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然，用户。

2024-12-19码农

最近经常看到有小伙伴在问，哪个开源的TTS好。

阿里的CosyVoice终于迎来重大升级，化身CosyVoice2。

它最大的亮点是流式合成输出。

这个开源项目一定会让非常多的软件、硬件交互体验提升一个档次。

讲下原因，互动性的AI产品，比如AI陪伴等，产品体验要好， 必须把AI回答的延迟降到最低。

想要延迟低，就必须想办法在各个环节降时间，ASR、LLM部分方案已经很多了，但是TTS方案确实是比较少，大部分方案开发周期比较长，问题在于流式这部分做不好。

像是豆包等产品的API已经有流式了，但是价格上确实是不低，尤其是加上声音克隆，成本太高，用户也难以接受。

CosyVoice 2在各方面做得都不错，粉丝朋友们可以尝试。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

CosyVoice 2是阿里巴巴开发的流式语音合成模型，它通过整合大型语言模型，实现了高质量的语音合成。该模型支持流式和非流式合成，采用有限标量量化技术提高语音信息捕捉，简化模型架构，并开发了块感知因果流匹配模型以适应不同合成场景。CosyVoice 2在保持人类同等自然度的同时，几乎无损地实现了流式模式下的合成质量。

DEMO

各方面能力都很强，咱们一个一个来看。

1、普通的音频克隆。

输入音频

输出音频

2、跨语言声音克隆

输入音频

输出音频

3、有情感的音频合成

快乐的

生气的

4、顺口溜