當前位置: 妍妍網 > 碼農

WhisperFusion:打造流暢自然的AI對話新體驗,整合大語言模型即時語音轉文本

2024-01-30碼農

計畫簡介

WhisperFusion 其核心功能是提供與人工智慧的無縫對話體驗。它融合了 WhisperLive 和 WhisperSpeech 的技術,透過這些技術,使用者可以更自然、流暢地與 AI 進行互動。從可行性角度來看,WhisperFusion 利用了現有的 AI 對話技術,提高了使用者體驗,表明其具有實際套用價值。計畫使用 Python 語言開發,表明了其良好的可拓展性和對開發者友好的特性。

掃碼加入交流群

獲得更多技術支持和交流

特點

· 即時語音轉文字:使用 OpenAI WhisperLive 即時將口語轉換為文本。

· 大型語言模型整合:添加 Mistral 這一大型語言模型,以增強對轉錄文本的理解和上下文。

· TensorRT 最佳化:LLM(大型語言模型)和 Whisper 均最佳化為 TensorRT 引擎執行,確保高效能和低延遲處理。

· torch.compile:WhisperSpeech 使用 torch.compile 加速推理,透過 JIT 編譯 PyTorch 程式碼到最佳化的內核,使 PyTorch 程式碼執行更快。

入門指南

提供了一個預先構建的 TensorRT-LLM Docker 容器,其中包含已轉換為 TensorRT 引擎的 Whisper 和 Phi,以及預先下載的 WhisperSpeech 模型,以便快速開始與 WhisperFusion 互動。

docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest

啟動GUI

cd examples/chatbot/html python -m http.server

構建 Docker 映像

bash build.sh 86-real

這會為 RTX 3090 構建 ghcr.io/collabora/whisperfusion:latest 映像。

計畫連結

https://github.com/collabora/WhisperFusion

關註「 開源AI計畫落地 」公眾號