当前位置: 欣欣网 > 码农

WhisperFusion:打造流畅自然的AI对话新体验,整合大语言模型实时语音转文本

2024-01-30码农

项目简介

WhisperFusion 其核心功能是提供与人工智能的无缝对话体验。它融合了 WhisperLive 和 WhisperSpeech 的技术,通过这些技术,用户可以更自然、流畅地与 AI 进行交互。从可行性角度来看,WhisperFusion 利用了现有的 AI 对话技术,提高了用户体验,表明其具有实际应用价值。项目使用 Python 语言开发,表明了其良好的可拓展性和对开发者友好的特性。

扫码加入交流群

获得更多技术支持和交流

特点

· 实时语音转文字:使用 OpenAI WhisperLive 实时将口语转换为文本。

· 大型语言模型集成:添加 Mistral 这一大型语言模型,以增强对转录文本的理解和上下文。

· TensorRT 优化:LLM(大型语言模型)和 Whisper 均优化为 TensorRT 引擎运行,确保高性能和低延迟处理。

· torch.compile:WhisperSpeech 使用 torch.compile 加速推理,通过 JIT 编译 PyTorch 代码到优化的内核,使 PyTorch 代码运行更快。

入门指南

提供了一个预先构建的 TensorRT-LLM Docker 容器,其中包含已转换为 TensorRT 引擎的 Whisper 和 Phi,以及预先下载的 WhisperSpeech 模型,以便快速开始与 WhisperFusion 交互。

docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest

启动GUI

cd examples/chatbot/html python -m http.server

构建 Docker 镜像

bash build.sh 86-real

这会为 RTX 3090 构建 ghcr.io/collabora/whisperfusion:latest 镜像。

项目链接

https://github.com/collabora/WhisperFusion

关注「 开源AI项目落地 」公众号