当前位置: 欣欣网 > 码农

Mini-Omni:首个开源实时语音交互模型,边听边说边思考,延迟比GPT-4o还要低

2024-09-04码农

GPT-4o其实也做到了比较流利的实时对话,但是往往这些模型都需要外接一个TTS,就导致对话还是会产生延迟。

Mini-Omni采用了一种文本指令的语音生成方法,并在推理过程中批量并行进一步提升性能。

所以说Mini-Omni可能是第一个完整意义上的端到端实时语音交互模型。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

Mini-Omni是一个开源多模态大型语言模型,具备实时对话能力和端到端的语音输入输出功能。通过独特的文本指导并行生成方法,实现了与文本能力一致的语音推理输出,仅需极少的额外数据和模块。

Mini-Omni还引入了一种「任何模型都能说话」的创新方法,通过最小的训练和修改,快速地将其他模型的文本处理能力转换为语音交互能力。

DEMO

只能说,确实快。

这没有延迟的感觉实在是太爽了!

下面图片是流式输出的示例

主要特点和贡献

·端到端的多模态交互能力:

Mini-Omni不仅支持文本输入输出,还能处理语音信号,实现真正的语音到语音的交流,这一点是通过文本指导并行生成技术实现的。

·高效的实时对话能力:

通过创新的并行生成和批处理并行解码技术,Mini-Omni能够在对话中实时响应,显著减少了延迟,提高了交互的自然流畅性。

·模型和数据效率:

该模型使用的是比较小的0.5B参数规模,但通过高效的训练和优化策略,实现了与大模型相媲美的性能,特别是在资源有限的环境下表现出色。

·"任何模型都能说话"的方法:

这是一种新颖的方法,允许通过最小的训练和修改,迅速将其他语言模型的文本处理能力扩展到语音交互领域。

·专门优化的数据集VoiceAssistant-400K:

为了训练和优化语音输出,Mini-Omni使用了特别开发的VoiceAssistant-400K数据集,该数据集旨在帮助模型在提供语音助手服务时减少生成代码符号,增强模型在真实应用中的实用性。

项目链接

https://github.com/gpt-omni/mini-omni

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 向量光年 」公众号

加速全行业向AI转变

关注「 AGI光年 」公众号

获取每日最新资讯