科学工具
科学工具让世界更美好
让世界更美好

Local Whisper 实时语音转录Local Whisper 实时语音转录

Local Whisper使用FastRTC和本地Whisper模型,实现快速实时的语音转录功能。FastRTC负责处理实时音频流,ASR模型通过Transformers库实现语音到文本的转换。Local Whisper支持多种配置,用户可以根据需求调整音频流、语音活动检测(VAD)等参数。

系统要求

Python版本需大于等于3.10

需要安装ffmpeg

安装步骤

1、克隆仓库

使用以下命令克隆项目到本地:

git clone https://github.com/sofi444/realtime-transcription-fastrtc
cd realtime-transcription-fastrtc

2、设置环境

用户可以选择使用UV或pip来管理依赖包:

使用UV(推荐)

uv venv --python 3.11 && source .venv/bin/activate
uv pip install -r requirements.txt

使用pip

python -m venv .venv && source .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

3、安装ffmpeg

根据操作系统不同,安装ffmpeg的命令也有所不同:

macOS

brew install ffmpeg

Linux(Ubuntu/Debian)

sudo apt update
sudo apt install ffmpeg

4、配置环境

在项目根目录下创建一个.env文件,内容如下:

UI_MODE = fastapi
APP_MODE = local
SERVER_NAME = localhost

UI_MODE控制使用的界面类型。如果设置为gradio,应用将通过Gradio启动并使用其默认界面。如果设置为其他值(如fastapi),则使用根目录下的index.html文件。

项目特点

实时音频流处理:通过FastRTC实现高效的音频流传输。

本地语音识别:使用开源的Whisper模型进行语音到文本的转换,保护数据隐私。

灵活配置:用户可以根据需求调整音频流和语音活动检测的参数。

使用场景

Local Whisper适用于需要实时语音转录的场景,如在线会议、语音助手、语音笔记等,通过本地化的语音识别,可以保障用户数据的安全性和隐私性。