当前位置：欣欣网 > 码农

WhisperFusion：打造流畅自然的AI对话新体验，整合大语言模型实时语音转文本

2024-01-30码农

项目简介

WhisperFusion 其核心功能是提供与人工智能的无缝对话体验。它融合了 WhisperLive 和 WhisperSpeech 的技术，通过这些技术，用户可以更自然、流畅地与 AI 进行交互。从可行性角度来看，WhisperFusion 利用了现有的 AI 对话技术，提高了用户体验，表明其具有实际应用价值。项目使用 Python 语言开发，表明了其良好的可拓展性和对开发者友好的特性。

扫码加入交流群

获得更多技术支持和交流

特点

· 实时语音转文字：使用 OpenAI WhisperLive 实时将口语转换为文本。

· 大型语言模型集成：添加 Mistral 这一大型语言模型，以增强对转录文本的理解和上下文。

· TensorRT 优化：LLM（大型语言模型）和 Whisper 均优化为 TensorRT 引擎运行，确保高性能和低延迟处理。

· torch.compile：WhisperSpeech 使用 torch.compile 加速推理，通过 JIT 编译 PyTorch 代码到优化的内核，使 PyTorch 代码运行更快。

入门指南

提供了一个预先构建的 TensorRT-LLM Docker 容器，其中包含已转换为 TensorRT 引擎的 Whisper 和 Phi，以及预先下载的 WhisperSpeech 模型，以便快速开始与 WhisperFusion 交互。

docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest

启动GUI

cd examples/chatbot/html python -m http.server

构建 Docker 镜像

bash build.sh 86-real

这会为 RTX 3090 构建 ghcr.io/collabora/whisperfusion:latest 镜像。

项目链接

https://github.com/collabora/WhisperFusion

关注「开源AI项目落地」公众号

Copyright © 2024 ai.jasve.com NO.1 欣欣网

文章部分内容源自网络，仅供AI学习使用，如有侵权请告知，我们将在48小时内删除：xingwa#jasve.com（发送邮件请将#换成@）