HuggingFace昨天开源了一个名为"speech-to-speech"的项目,这是一个开源的、模块化的GPT-4级语音对话系统。
这个项目集成了多个大家常用的AI模型,实现了从语音输入到语音输出的端到端对话能力,无需文本作为中间媒介。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
项目架构
S2S 采用级联式管道结构,包含以下四个主要组件:
1.语音活动检测(VAD): 使用Silero VAD v5模型
2.语音识别(STT): 使用Whisper模型,包括其蒸馏版本
3.语言模型(LM): 可使用Hugging Face Hub上的任何指令型模型
4.语音合成(TTS): 使用Parler-TTS模型
模块化设计
项目的一大特点是其高度模块化的设计。每个组件都可以根据需要灵活替换或修改:
· VAD模块使用Silero的开源实现
· STT模块可以使用任何Whisper检查点,如Distil-Whisper等
· LM模块完全可替换,只需修改Hugging Face模型ID即可
· TTS模块使用Parler-TTS,但可以使用不同的检查点包括多语言模型
代码结构也便于修改,每个组件都被实现为一个类,可以根据特定需求重新实现。
技术亮点
1. 集成了多个前沿AI模型,实现端到端的语音对话
2. 高度模块化的设计,便于替换和定制各个组件
3. 支持服务器/客户端和本地两种运行模式
4. 提供Docker容器支持,方便部署
5. 丰富的命令行参数,灵活可控
使用方法
该项目支持两种运行方式:
1.服务器/客户端模式: 模型在服务器上运行,音频通过客户端流式传输
2.本地模式: 在本地机器上运行整个管道
对于服务器模式,还提供了Docker容器支持,方便部署。
项目还提供了丰富的命令行参数,可以灵活控制各个模块的行为,如模型选择、生成参数等。
结语
这个项目为构建开放、可定制的语音对话系统提供了一个很好的起点。研究人员和开发者可以基于此进行进一步的改进和应用开发,推动语音交互技术的发展。
项目链接
https://github.com/huggingface/speech-to-speech
关注「 开源AI项目落地 」公众号
与AI时代更靠近一点
关注「 向量光年 」公众号
加速全行业向AI转变
关注「 AGI光年 」公众号
获取每日最新资讯
更多AI信息,尽在www.dongaigc.com