今天介绍的是RealtimeSTT。
这个项目实际上是在Whisper的基础上做的 ,主要功能是SST,平时大家听ASR、语音转文本比较多一些,差不多的一个概念。
因为它把Whisper做了流式输出,速度很快,几乎是实时的了,还做了一些纠错机制。
其实这个项目还是很有价值的, 流式的语音转文本会让很多场景响应速度更快。
举个简单的例子,现在很多发布会都是大屏显示说话人的实时讲话,这其实就跟RealtimeSTT的功能差不多,如果再加上实时的翻译,是不是就更酷了。
项目简介
RealtimeSTT是一个简单易用、低延迟的实时语音转文字项目。它能实时监听麦克风,将语音转为文本,适用于语音助手等需快速精准转换的应用。新增 AudioToTextRecorderClient 类,可自动启动并连接服务器(部分功能还在完善),CLI 接口也经过重写,使用 stt-server 启动服务器,stt 启动客户端。。
DEMO
功能特点
语音活动检测 :能自动检测用户何时开始和停止说话。
实时转录: 实时将语音转换为文本。
唤醒词激活: 可在检测到指定的唤醒词时激活。
AudioToTextRecorderClient 类: 如果没有服务器在运行,该类会自动启动一个服务器并连接到它。接口与 AudioToTextRecorder 相同,便于在两者之间进行升级或切换。AudioToTextRecorder 的大部分参数和回调已在 AudioToTextRecorderClient 中实现,但服务器目前还无法处理并发请求。
CLI 接口: 使用 stt-server 启动服务器,stt 启动客户端。
技术基础
语音活动检测:
WebRTCVAD:用于初始语音活动检测。
SileroVAD:用于更准确的验证。
语音转文本:
Faster_Whisper:用于即时(GPU 加速)转录。
唤醒词检测:
Porcupine 或 OpenWakeWord:用于唤醒词检测。
项目链接
https://github.com/KoljaB/RealtimeSTT
关注「 开源AI项目落地 」公众号
与AI时代更靠近一点