3.4k星星！開源超低延遲即時語音轉文本SST，支持語音活動檢測、喚醒詞啟用。

2025-01-17碼農

今天介紹的是RealtimeSTT。

這個計畫實際上是在Whisper的基礎上做的 ，主要功能是SST，平時大家聽ASR、語音轉文本比較多一些，差不多的一個概念。

因為它把Whisper做了流式輸出，速度很快，幾乎是即時的了，還做了一些糾錯機制。

其實這個計畫還是很有價值的， 流式的語音轉文本會讓很多場景響應速度更快。

舉個簡單的例子，現在很多釋出會都是大屏顯示說話人的即時講話，這其實就跟RealtimeSTT的功能差不多，如果再加上即時的轉譯，是不是就更酷了。

計畫簡介

RealtimeSTT是一個簡單易用、低延遲的即時語音轉文字計畫。它能即時監聽麥克風，將語音轉為文本，適用於語音助手等需快速精準轉換的套用。新增 AudioToTextRecorderClient 類，可自動啟動並連線伺服器（部份功能還在完善），CLI 介面也經過重寫，使用 stt-server 啟動伺服器，stt 啟動客戶端。。

DEMO

功能特點

語音活動檢測 ：能自動檢測使用者何時開始和停止說話。
即時轉錄： 即時將語音轉換為文本。
喚醒詞啟用： 可在檢測到指定的喚醒詞時啟用。
AudioToTextRecorderClient 類： 如果沒有伺服器在執行，該類會自動啟動一個伺服器並連線到它。介面與 AudioToTextRecorder 相同，便於在兩者之間進行升級或切換。AudioToTextRecorder 的大部份參數和回呼已在 AudioToTextRecorderClient 中實作，但伺服器目前還無法處理並行請求。
CLI 介面： 使用 stt-server 啟動伺服器，stt 啟動客戶端。

技術基礎

語音活動檢測：

WebRTCVAD：用於初始語音活動檢測。

SileroVAD：用於更準確的驗證。

語音轉文本：

Faster_Whisper：用於即時（GPU 加速）轉錄。

喚醒詞檢測：

Porcupine 或 OpenWakeWord：用於喚醒詞檢測。

計畫連結

https://github.com/KoljaB/RealtimeSTT

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點