当前位置: 欣欣网 > 码农

21.5K star! 效果超棒的开源语音天花板,3天狂揽9K star(附懒人包)

2024-06-07码农

* 戳上方蓝字「 开源先锋 」关注我

推荐阅读:

大家好,我是开源君!

在人工智能领域,文本到语音(Text-to-Speech, TTS)技术一直是研究的热点之一。随着技术的发展,人们对于TTS系统的要求也越来越高,不仅仅是将文本转换为语音,更希望这些语音能够自然、流畅,甚至能够表达出一定的情感。

最近一个叫 ChatTTS 的项目可谓是火出圈了,短短开源3天的时间就收获了9K star,并且仍在不断增长。

今天开源君就来和大家分享一下这个火爆的项目。

项目简介

ChatTTS 是一个文本到语音(Text-to-Speech,简称TTS)模型,专为对话场景设计,如比如像大型语言模型(LLM)助手这样的应用。它支持多说话者,使得交互式对话成为可能。此外,它还提供了细粒度的控制功能,可以预测和控制诸如笑声、停顿和插入语等韵律特征。

官方的介绍及演示

这个项目不仅支持中文和英文两种语言,而且还经过了超过10万小时的中文和英文数据训练,非常厉害。

目前开源版本是一个40,000小时预训练模型,且未进行二次微调(SFT)。

目前在Github上面收获了21.5K star!

性能特色

  • 对话式TTS:ChatTTS针对基于对话的任务进行了优化,支持自然和富有表现力的语音合成。它支持多个说话者,有助于进行互动对话。

  • 细粒度控制:模型能够预测并控制细粒度的韵律特征,包括笑声、停顿和插入语。

  • 更好的韵律:在韵律方面,ChatTTS超过了大多数开源TTS模型。项目还提供了预训练模型以支持进一步的研究和开发。

  • 项目安装部署

    要使用ChatTTS,首先需要安装必要的库,然后可以通过以下基础代码来进行语音合成:

    import ChatTTS
    from IPython.display import Audio
    chat = ChatTTS.Chat()
    chat.load_models(compile=False) # 设置为True以获得更好的性能
    texts = ["PUT YOUR TEXT HERE"]
    wavs = chat.infer(texts)
    torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

    官方还提供了更高阶的使用示例,包括采样说话者、自定义温度、top P解码等,可以自行去项目地址查看。

    项目使用体验

    官方提供的部署方式对于我们来说,还是有很多不便的地方。

    如果想要能快速上手体验的话,可以直接试试各路网友们根据这个项目制作的各种工具。

    1、在线工具

    网址:https://chattts.com/

    这个看似官网的在线工具,提供了在线体验ChatTTS的功能。

    直接输入要转换的文字,调整一下界面的参数,就可以直接生成。

    在体验ChatTTS时,我们还可以通过一些特殊的标记来控制语音输出的细节,比如笑声、停顿等。目前可控制的有笑声、停顿这2种。

    [laugh] 代表笑声
    [uv_break] 代表停顿

    如下示例文本

    大家好啊[uv_break],我是开源君[laugh]很高兴和大家一起交流开源项目,[uv_break]请大家多多指点。[laugh]

    效果如下:

    2、一键安装包

    这个项目直接将ChatTTS进行了打包,可以一键进行安装使用。这个项目提供了一个简单的本地网页界面直接使用,同时支持对外提供API接口。

    详细可以查看项目文档:

    项目地址:https://github.com/jianchang512/ChatTTS-ui

    3、在线colab

    官方提供了ipynb文件供各位调试体验

    https://github.com/2noise/ChatTTS/blob/main/example.ipynb

    另外还有一些网友大神也制作了在线的colab版本,对于我们程序员来说,进行各种调试体验,可再方便不过了。

    因为某些原因,链接就不贴了,各位去搜索引擎里面直接找就行。

    有需要的也可以长按下图,添加加开源君微信。

    ChatTTS 是一个非常有潜力的项目,它不仅能够提供高质量的语音合成,而且还具有对话式TTS和细粒度控制的特点。项目团队还计划开源更多的功能,包括多情绪控制和流式音频生成等。

    不过,需要注意的是,这个项目目前仅用于学术目的,作者并不保证信息的准确性、完整性或可靠性,并且对于使用ChatTTS技术的方式有严格的限制,以防止其被用于不当目的。

    更多细节功能,感兴趣的可以到项目地址查看:

    项目地址:
    https://github.com/2noise/chattts