阿裏開源的聲音複制TTS重磅升級，CosyVoice2支持流式輸出，更加流暢自然，使用者。

2024-12-19碼農

最近經常看到有小夥伴在問，哪個開源的TTS好。

阿裏的CosyVoice終於迎來重大升級，化身CosyVoice2。

它最大的亮點是流式合成輸出。

這個開源計畫一定會讓非常多的軟體、硬體互動體驗提升一個檔次。

講下原因，互動性的AI產品，比如AI陪伴等，產品體驗要好， 必須把AI回答的延遲降到最低。

想要延遲低，就必須想辦法在各個環節降時間，ASR、LLM部份方案已經很多了，但是TTS方案確實是比較少，大部份方案開發周期比較長，問題在於流式這部份做不好。

像是豆包等產品的API已經有流式了，但是價格上確實是不低，尤其是加上聲音複制，成本太高，使用者也難以接受。

CosyVoice 2在各方面做得都不錯，粉絲朋友們可以嘗試。

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

計畫簡介

CosyVoice 2是阿裏巴巴開發的流式語音合成模型，它透過整合大型語言模型，實作了高品質的語音合成。該模型支持流式和非流式合成，采用有限純量量化技術提高語音資訊捕捉，簡化模型架構，並開發了塊感知因果流匹配模型以適應不同合成場景。CosyVoice 2在保持人類同等自然度的同時，幾乎無失真地實作了流式模式下的合成品質。

DEMO

各方面能力都很強，咱們一個一個來看。

1、普通的音訊複制。

輸入音訊

輸出音訊

2、跨語言聲音複制

輸入音訊

輸出音訊

3、有情感的音訊合成

快樂的

生氣的

4、順口溜