Local Whisper使用FastRTC和本地Whisper模型,实现快速实时的语音转录功能。FastRTC负责处理实时音频流,ASR模型通过Transformers库实现语音到文本的转换。Local Whisper支持多种配置,用户可以根据需求调整音频流、语音活动检测(VAD)等参数。
系统要求
Python版本需大于等于3.10
需要安装ffmpeg
安装步骤
1、克隆仓库
使用以下命令克隆项目到本地:
git clone https://github.com/sofi444/realtime-transcription-fastrtc
cd realtime-transcription-fastrtc
2、设置环境
用户可以选择使用UV或pip来管理依赖包:
使用UV(推荐)
uv venv --python 3.11 && source .venv/bin/activate
uv pip install -r requirements.txt
使用pip
python -m venv .venv && source .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt
3、安装ffmpeg
根据操作系统不同,安装ffmpeg的命令也有所不同:
macOS
brew install ffmpeg
Linux(Ubuntu/Debian)
sudo apt update
sudo apt install ffmpeg
4、配置环境
在项目根目录下创建一个.env
文件,内容如下:
UI_MODE = fastapi
APP_MODE = local
SERVER_NAME = localhost
UI_MODE
控制使用的界面类型。如果设置为gradio
,应用将通过Gradio启动并使用其默认界面。如果设置为其他值(如fastapi
),则使用根目录下的index.html
文件。
项目特点
实时音频流处理:通过FastRTC实现高效的音频流传输。
本地语音识别:使用开源的Whisper模型进行语音到文本的转换,保护数据隐私。
灵活配置:用户可以根据需求调整音频流和语音活动检测的参数。
使用场景
Local Whisper适用于需要实时语音转录的场景,如在线会议、语音助手、语音笔记等,通过本地化的语音识别,可以保障用户数据的安全性和隐私性。