科学工具
科学工具让世界更美好
让世界更美好
语音工具
语音工具OpenAI.fm 基于 OpenAI Text-to-Speech 模型的交互式演示项目,使用 OpenAI Speech API 将文本转换成语音
OpenAI.fm 是一个互动演示项目,使用 NextJS 构建,集成了OpenAI Speech API,能将文本转换成语音。如何运行1、设置 OpenAI API:克隆仓库:git clone https://github.com/openai/openai-fm.git2、设置 OpenAI API 密钥:方法一:在项目中设置环境变量 OPENAI_API_KEY。方法二:在项目根目录创建 .env 文件,添加以下内容(参考 .env.example 文件):OPENAI_API_KEY=<
语音工具
语音工具
语音工具AudioX音频处理工具库,基于扩散Transformer模型,可根据文本、视频、图像、音乐或音频等生成音频或音乐
AudioX音频生成模型由香港科技大学团队研发,首次实现单一框架下文本、图像、视频等多模态输入到音频/音乐的跨模态转换,在生成质量与计算效率上达到行业领先水平。1、统一架构设计突破传统单模态模型的局限,构建首个支持文本/图像/视频到音频/音乐双向转换的统一框架,在MusicCaps测试集上的Inception Score达到4.82,成绩超过现有专用模型。2、多模态掩码训练法AudioX创新性地采用跨模态掩码策略,在训练阶段随机屏蔽不同模态输入(如遮盖视频画面/音频片段),让模型通过剩余信息重建完整内容
语音工具
语音工具Local Whisper 实时语音转录
Local Whisper使用FastRTC和本地Whisper模型,实现快速实时的语音转录功能。FastRTC负责处理实时音频流,ASR模型通过Transformers库实现语音到文本的转换。Local Whisper支持多种配置,用户可以根据需求调整音频流、语音活动检测(VAD)等参数。系统要求• Python版本需大于等于3.10• 需要安装ffmpeg安装步骤1、克隆仓库使用以下命令克隆项目到本地:git clone https://github.com/sofi444/realtime-tra
语音工具
语音工具Orpheus TTS 基于Llama-3b的开源文本转语音系统
Orpheus TTS是基于Llama-3b的开源TTS系统,具备语音克隆、情感控制和低延迟等能力,TTS能力超越了 ElevenLabs 和 OpenAI 等开源和闭源模型,利用大型语言模型 (LLM) 的能力进行语音合成。核心能力语音自然度:自然的语调、情感和节奏,在语音合成领域独树一帜。零样本语音克隆:无需预先微调,就能实现语音克隆,极大地降低了使用门槛。可控的情感和语调:通过简单的标签,用户可以轻松控制语音的情感和语调特征。低延迟:约200毫秒的流式延迟,适用于实时应用,且通过输入流式处理可进一
1