Local Whisper 实时语音转录

Local Whisper使用FastRTC和本地Whisper模型，实现快速实时的语音转录功能。FastRTC负责处理实时音频流，ASR模型通过Transformers库实现语音到文本的转换。Local Whisper支持多种配置，用户可以根据需求调整音频流、语音活动检测（VAD）等参数。

系统要求

Python版本需大于等于3.10

需要安装ffmpeg

安装步骤

1、克隆仓库

使用以下命令克隆项目到本地：

git clone https://github.com/sofi444/realtime-transcription-fastrtc
cd realtime-transcription-fastrtc

2、设置环境

用户可以选择使用UV或pip来管理依赖包：

使用UV（推荐）

uv venv --python 3.11 && source .venv/bin/activate
uv pip install -r requirements.txt

使用pip

python -m venv .venv && source .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

3、安装ffmpeg

根据操作系统不同，安装ffmpeg的命令也有所不同：

macOS

brew install ffmpeg

Linux（Ubuntu/Debian）

sudo apt update
sudo apt install ffmpeg

4、配置环境

在项目根目录下创建一个.env文件，内容如下：

UI_MODE = fastapi
APP_MODE = local
SERVER_NAME = localhost

UI_MODE控制使用的界面类型。如果设置为gradio，应用将通过Gradio启动并使用其默认界面。如果设置为其他值（如fastapi），则使用根目录下的index.html文件。

项目特点

实时音频流处理：通过FastRTC实现高效的音频流传输。

本地语音识别：使用开源的Whisper模型进行语音到文本的转换，保护数据隐私。

灵活配置：用户可以根据需求调整音频流和语音活动检测的参数。

使用场景

Local Whisper适用于需要实时语音转录的场景，如在线会议、语音助手、语音笔记等，通过本地化的语音识别，可以保障用户数据的安全性和隐私性。

OpenAI.fm 基于 OpenAI Text-to-Speech 模型的交互式演示项目，使用 OpenAI Speech API 将文本转换成语音

AudioX音频处理工具库，基于扩散Transformer模型，可根据文本、视频、图像、音乐或音频等生成音频或音乐

Local Whisper 实时语音转录

Orpheus TTS 基于Llama-3b的开源文本转语音系统

微软Playwright MCP 网页自动化测试框架，支持跨浏览器Web测试

AI 有声书自动化生成工具

OI Wiki 编程竞赛知识库

OpenDeepSearch 开源搜索工具

WhatsApp MCP Server：连接Claude管理个人消息的AI工具

Flowise 零代码搭建AI应用

地图瓦片图下载工具，支持OpenStreetMap、天地图、谷歌地图、高德地图、腾讯地图、必应地图的XYZ瓦片图下载与合并

Pake打包工具：可将网页快速打包成桌面应用

XianyuAutoAgent 智能闲鱼客服机器人系统

漫画翻译器

Escrcpy ：基于 Scrcpy 的图形化安卓手机投屏+控制软件，支持Windows、macOS、Linux

插件化、定制化、无广告的免费音乐播放器 MusicFree

语音工具

插件化、定制化、无广告的免费音乐播放器 MusicFree

Reubah 基于网页的图像处理与文档转换工具

Ward服务器监控工具

Escrcpy ：基于 Scrcpy 的图形化安卓手机投屏+控制软件，支持Windows、macOS、Linux

KrillinAI 基于LLMs的本地视频翻译、配音和语音克隆的工具

MarkitDown：可以将PDF，PPT，word，Excel、图片、音频、html、csv 等转化成Markdown格式

Together Open Deep Research由AI驱动的深度研究工具，能生成含引用的综合性报告

LLManager 用于管理审批请求的 LangGraph 工作流

Python A2A：Google A2A协议的Python实现，集成MCP，用于构建可互操作的多智能体系统

OpenAI.fm 基于 OpenAI Text-to-Speech 模型的交互式演示项目，使用 OpenAI Speech API 将文本转换成语音