GPT-4o语音对话开源版，HuggingFace官方出品，必属精品

2024-08-27码农

HuggingFace昨天开源了一个名为"speech-to-speech"的项目，这是一个开源的、模块化的GPT-4级语音对话系统。

这个项目集成了多个大家常用的AI模型，实现了从语音输入到语音输出的端到端对话能力，无需文本作为中间媒介。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目架构

S2S 采用级联式管道结构,包含以下四个主要组件:

1.语音活动检测(VAD): 使用Silero VAD v5模型

2.语音识别(STT): 使用Whisper模型,包括其蒸馏版本

3.语言模型(LM): 可使用Hugging Face Hub上的任何指令型模型

4.语音合成(TTS): 使用Parler-TTS模型

模块化设计

项目的一大特点是其高度模块化的设计。每个组件都可以根据需要灵活替换或修改:

· VAD模块使用Silero的开源实现

· STT模块可以使用任何Whisper检查点,如Distil-Whisper等

· LM模块完全可替换,只需修改Hugging Face模型ID即可

· TTS模块使用Parler-TTS,但可以使用不同的检查点包括多语言模型

代码结构也便于修改,每个组件都被实现为一个类,可以根据特定需求重新实现。

技术亮点

1. 集成了多个前沿AI模型,实现端到端的语音对话

2. 高度模块化的设计,便于替换和定制各个组件

3. 支持服务器/客户端和本地两种运行模式

4. 提供Docker容器支持,方便部署

5. 丰富的命令行参数,灵活可控

使用方法

该项目支持两种运行方式:

1.服务器/客户端模式: 模型在服务器上运行,音频通过客户端流式传输

2.本地模式: 在本地机器上运行整个管道

对于服务器模式,还提供了Docker容器支持,方便部署。

项目还提供了丰富的命令行参数,可以灵活控制各个模块的行为,如模型选择、生成参数等。

结语

这个项目为构建开放、可定制的语音对话系统提供了一个很好的起点。研究人员和开发者可以基于此进行进一步的改进和应用开发,推动语音交互技术的发展。

项目链接

https://github.com/huggingface/speech-to-speech

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 向量光年 」公众号

加速全行业向AI转变

关注「 AGI光年」公众号

获取每日最新资讯

更多AI信息，尽在www.dongaigc.com