项目简介
WhisperFusion 其核心功能是提供与人工智能的无缝对话体验。它融合了 WhisperLive 和 WhisperSpeech 的技术,通过这些技术,用户可以更自然、流畅地与 AI 进行交互。从可行性角度来看,WhisperFusion 利用了现有的 AI 对话技术,提高了用户体验,表明其具有实际应用价值。项目使用 Python 语言开发,表明了其良好的可拓展性和对开发者友好的特性。
扫码加入交流群
获得更多技术支持和交流
特点
· 实时语音转文字:使用 OpenAI WhisperLive 实时将口语转换为文本。
· 大型语言模型集成:添加 Mistral 这一大型语言模型,以增强对转录文本的理解和上下文。
· TensorRT 优化:LLM(大型语言模型)和 Whisper 均优化为 TensorRT 引擎运行,确保高性能和低延迟处理。
· torch.compile:WhisperSpeech 使用 torch.compile 加速推理,通过 JIT 编译 PyTorch 代码到优化的内核,使 PyTorch 代码运行更快。
入门指南
提供了一个预先构建的 TensorRT-LLM Docker 容器,其中包含已转换为 TensorRT 引擎的 Whisper 和 Phi,以及预先下载的 WhisperSpeech 模型,以便快速开始与 WhisperFusion 交互。
docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest
启动GUI
cd examples/chatbot/html
python -m http.server
构建 Docker 镜像
bash build.sh 86-real
这会为 RTX 3090 构建 ghcr.io/collabora/whisperfusion:latest 镜像。
项目链接
https://github.com/collabora/WhisperFusion
关注「 开源AI项目落地 」公众号