計畫簡介
WhisperFusion 其核心功能是提供與人工智慧的無縫對話體驗。它融合了 WhisperLive 和 WhisperSpeech 的技術,透過這些技術,使用者可以更自然、流暢地與 AI 進行互動。從可行性角度來看,WhisperFusion 利用了現有的 AI 對話技術,提高了使用者體驗,表明其具有實際套用價值。計畫使用 Python 語言開發,表明了其良好的可拓展性和對開發者友好的特性。
掃碼加入交流群
獲得更多技術支持和交流
特點
· 即時語音轉文字:使用 OpenAI WhisperLive 即時將口語轉換為文本。
· 大型語言模型整合:添加 Mistral 這一大型語言模型,以增強對轉錄文本的理解和上下文。
· TensorRT 最佳化:LLM(大型語言模型)和 Whisper 均最佳化為 TensorRT 引擎執行,確保高效能和低延遲處理。
· torch.compile:WhisperSpeech 使用 torch.compile 加速推理,透過 JIT 編譯 PyTorch 程式碼到最佳化的內核,使 PyTorch 程式碼執行更快。
入門指南
提供了一個預先構建的 TensorRT-LLM Docker 容器,其中包含已轉換為 TensorRT 引擎的 Whisper 和 Phi,以及預先下載的 WhisperSpeech 模型,以便快速開始與 WhisperFusion 互動。
docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest
啟動GUI
cd examples/chatbot/html
python -m http.server
構建 Docker 映像
bash build.sh 86-real
這會為 RTX 3090 構建 ghcr.io/collabora/whisperfusion:latest 映像。
計畫連結
https://github.com/collabora/WhisperFusion
關註「 開源AI計畫落地 」公眾號