當前位置：妍妍網 > 碼農

WhisperFusion：打造流暢自然的AI對話新體驗，整合大語言模型即時語音轉文本

2024-01-30碼農

計畫簡介

WhisperFusion 其核心功能是提供與人工智慧的無縫對話體驗。它融合了 WhisperLive 和 WhisperSpeech 的技術，透過這些技術，使用者可以更自然、流暢地與 AI 進行互動。從可行性角度來看，WhisperFusion 利用了現有的 AI 對話技術，提高了使用者體驗，表明其具有實際套用價值。計畫使用 Python 語言開發，表明了其良好的可拓展性和對開發者友好的特性。

掃碼加入交流群

獲得更多技術支持和交流

特點

· 即時語音轉文字：使用 OpenAI WhisperLive 即時將口語轉換為文本。

· 大型語言模型整合：添加 Mistral 這一大型語言模型，以增強對轉錄文本的理解和上下文。

· TensorRT 最佳化：LLM（大型語言模型）和 Whisper 均最佳化為 TensorRT 引擎執行，確保高效能和低延遲處理。

· torch.compile：WhisperSpeech 使用 torch.compile 加速推理，透過 JIT 編譯 PyTorch 程式碼到最佳化的內核，使 PyTorch 程式碼執行更快。

入門指南

提供了一個預先構建的 TensorRT-LLM Docker 容器，其中包含已轉換為 TensorRT 引擎的 Whisper 和 Phi，以及預先下載的 WhisperSpeech 模型，以便快速開始與 WhisperFusion 互動。

docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest

啟動GUI

cd examples/chatbot/html python -m http.server

構建 Docker 映像

bash build.sh 86-real

這會為 RTX 3090 構建 ghcr.io/collabora/whisperfusion:latest 映像。

計畫連結

https://github.com/collabora/WhisperFusion

關註「開源AI計畫落地」公眾號

Copyright © 2024 ai.jasve.com NO.1 妍妍網

文章部分內容源自網絡，僅供AI學習使用，如有侵權請告知，我們將在48小時內刪除：xingwa#jasve.com（傳送郵件請將#換成@）