AI 有声书自动化生成工具基于OpenAI的文本转语音技术,可实现书籍内容到多角色有声书的自动化生成。
自动化生成流程包括:
1、文本分割与角色识别(Python脚本分析对话段落)
2、语音演员分配(通过JSON配置文件自定义声线)
3、分章节音频合成(调用TTS接口生成MP3片段)
4、最终音频合并(拼接为完整有声书)
支持批量处理,有内容审查限制,无法生成包含敏感词汇的文本。
针对EPUB格式的专项处理
1、内置章节识别算法(通过HTML标签提取标题,失败时自动截取文本前导词)
2、多引擎支持:可切换Azure/OpenAI/EdgeTTS三种语音引擎
3、元数据封装:生成文件适配Audiobookshelf等自托管平台
4、Docker容器化部署:简化依赖管理流程
12行Python代码实现基础功能:
# 依赖库:PyPDF2提取文本,pyttsx3进行本地语音合成
import PyPDF2, pyttsx3
pdf_file = open('book.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
engine = pyttsx3.init()
for page_num in range(pdf_reader.numPages):
text = pdf_reader.getPage(page_num).extractText()
engine.say(text)
engine.runAndWait()
零API调用成本,语音自然度较低。
通过Docker快速搭建Audiobookshelf服务:
# docker-compose配置示例
version: "3.7"
services:
audiobookshelf:
image: ghcr.io/advplyr/audiobookshelf:latest
ports:
13378:80
volumes:
./audiobooks:/audiobooks
./config:/config
需配合Nginx反向代理实现域名访问,支持移动端客户端同步。
类型 | 优势 | 局限性 | 适用场景 |
---|---|---|---|
OpenAI方案 | 多角色演绎,语音质量高 | 生成速度慢,内容审查严格 | 小说类内容制作 |
EPUB转换器 | 结构保留完整,支持章节导航 | 需处理复杂排版文档 | 技术文档/教材转换 |
PDF朗读器 | 零成本,部署简单 | 仅支持简单版式,无语音定制 | 临时性快速转换 |
自托管服务器 | 数据完全自主,支持播客订阅 | 需要服务器资源,维护成本较高 | 个人媒体库建设 |