今天介紹的是RealtimeSTT。
這個計畫實際上是在Whisper的基礎上做的 ,主要功能是SST,平時大家聽ASR、語音轉文本比較多一些,差不多的一個概念。
因為它把Whisper做了流式輸出,速度很快,幾乎是即時的了,還做了一些糾錯機制。
其實這個計畫還是很有價值的, 流式的語音轉文本會讓很多場景響應速度更快。
舉個簡單的例子,現在很多釋出會都是大屏顯示說話人的即時講話,這其實就跟RealtimeSTT的功能差不多,如果再加上即時的轉譯,是不是就更酷了。
計畫簡介
RealtimeSTT是一個簡單易用、低延遲的即時語音轉文字計畫。它能即時監聽麥克風,將語音轉為文本,適用於語音助手等需快速精準轉換的套用。新增 AudioToTextRecorderClient 類,可自動啟動並連線伺服器(部份功能還在完善),CLI 介面也經過重寫,使用 stt-server 啟動伺服器,stt 啟動客戶端。。
DEMO
功能特點
語音活動檢測 :能自動檢測使用者何時開始和停止說話。
即時轉錄: 即時將語音轉換為文本。
喚醒詞啟用: 可在檢測到指定的喚醒詞時啟用。
AudioToTextRecorderClient 類: 如果沒有伺服器在執行,該類會自動啟動一個伺服器並連線到它。介面與 AudioToTextRecorder 相同,便於在兩者之間進行升級或切換。AudioToTextRecorder 的大部份參數和回呼已在 AudioToTextRecorderClient 中實作,但伺服器目前還無法處理並行請求。
CLI 介面: 使用 stt-server 啟動伺服器,stt 啟動客戶端。
技術基礎
語音活動檢測:
WebRTCVAD:用於初始語音活動檢測。
SileroVAD:用於更準確的驗證。
語音轉文本:
Faster_Whisper:用於即時(GPU 加速)轉錄。
喚醒詞檢測:
Porcupine 或 OpenWakeWord:用於喚醒詞檢測。
計畫連結
https://github.com/KoljaB/RealtimeSTT
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點