當前位置: 妍妍網 > 碼農

3.4k星星!開源超低延遲即時語音轉文本SST,支持語音活動檢測、喚醒詞啟用。

2025-01-17碼農

今天介紹的是RealtimeSTT。

這個計畫實際上是在Whisper的基礎上做的 ,主要功能是SST,平時大家聽ASR、語音轉文本比較多一些,差不多的一個概念。

因為它把Whisper做了流式輸出,速度很快,幾乎是即時的了,還做了一些糾錯機制。

其實這個計畫還是很有價值的, 流式的語音轉文本會讓很多場景響應速度更快。

舉個簡單的例子,現在很多釋出會都是大屏顯示說話人的即時講話,這其實就跟RealtimeSTT的功能差不多,如果再加上即時的轉譯,是不是就更酷了。

計畫簡介

RealtimeSTT是一個簡單易用、低延遲的即時語音轉文字計畫。它能即時監聽麥克風,將語音轉為文本,適用於語音助手等需快速精準轉換的套用。新增 AudioToTextRecorderClient 類,可自動啟動並連線伺服器(部份功能還在完善),CLI 介面也經過重寫,使用 stt-server 啟動伺服器,stt 啟動客戶端。。

DEMO

功能特點

  1. 語音活動檢測 :能自動檢測使用者何時開始和停止說話。

  2. 即時轉錄: 即時將語音轉換為文本。

  3. 喚醒詞啟用: 可在檢測到指定的喚醒詞時啟用。

  4. AudioToTextRecorderClient 類: 如果沒有伺服器在執行,該類會自動啟動一個伺服器並連線到它。介面與 AudioToTextRecorder 相同,便於在兩者之間進行升級或切換。AudioToTextRecorder 的大部份參數和回呼已在 AudioToTextRecorderClient 中實作,但伺服器目前還無法處理並行請求。

  5. CLI 介面: 使用 stt-server 啟動伺服器,stt 啟動客戶端。

技術基礎

語音活動檢測:

  • WebRTCVAD:用於初始語音活動檢測。

  • SileroVAD:用於更準確的驗證。

  • 語音轉文本:

  • Faster_Whisper:用於即時(GPU 加速)轉錄。

  • 喚醒詞檢測:

  • Porcupine 或 OpenWakeWord:用於喚醒詞檢測。

  • 計畫連結

    https://github.com/KoljaB/RealtimeSTT

    關註「 開源AI計畫落地 」公眾號

    與AI時代更靠近一點