PDF Document Layout Analysis PDF文档布局分析基于Docker的服务，用于PDF文档的OCR、分段、分类和元素排序分析

PDF Document Layout Analysis基于Docker的PDF文档布局分析服务，能够对PDF页面的不同部分进行分割和分类，识别出诸如文本、标题、图片、表格等元素，可确定这些元素的正确顺序。

PDF Document Layout Analysis有两种模型，一种是视觉模型（称为Vision Grid Transformer - VGT），由阿里巴巴研究团队训练，另一种是LightGBM模型，LightGBM模型不依赖于视觉信息，而是使用Poppler提取的XML信息。视觉模型通常表现更好，视觉模型可以看到整个页面并了解所有上下文，但资源消耗更大，LightGBM模型虽然性能稍差，但速度更快，资源消耗更少。

数据集

PDF Document Layout Analysis使用了DocLayNet数据集来训练模型，数据集包含11个类别：标题、脚注、公式、列表项、页脚、页眉、图片、节标题、表格、文本和标题。

使用方法

用户可以通过简单的命令行操作来使用这个服务。

使用视觉模型进行分析：

curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' localhost:5060

如果用户希望使用LightGBM模型，可以使用以下命令：

curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' -F "fast=true" localhost:5060

输出结果

当处理完成后，输出将包括一系列SegmentBox元素，每个元素都包含有关其位置和类型的信息，用户还可以通过以下命令获取可视化结果：

curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' localhost:5060/visualize -o '/PATH/TO/OUTPUT_PDF/pdf_name.pdf'

性能基准

VGT模型在PubLayNet数据集上的基准测试结果显示，整体准确率为0.962，文本为0.962，标题为0.950，列表为0.939，表格为0.968，图片为0.981，公式为0.971。

对于15页的学术论文文档，GPU加速的VGT模型每页的处理时间为1.75秒，CPU上的VGT模型需要13.5秒。

Sioyek 学术pdf文档阅读器

MarkPDFdown：PDF转Markdown工具

OCRmyPDF 命令行工具将扫描的 PDF 文件转换为可搜索、可复制的文档格式

PDF Document Layout Analysis PDF文档布局分析基于Docker的服务，用于PDF文档的OCR、分段、分类和元素排序分析

pdf-ocr-obsidian自动化工作流：使用 Mistral AI OCR API 将 PDF 文档转换为 Markdown 格式

PDF-Craft：AI扫描书籍PDF转Markdown/EPUB工具，智能处理页眉跨页

SmartRead 由AI驱动用于自动注释 PDF 文档

OpenDeepSearch 开源搜索工具

II-Researcher智能搜索代理：BAML深度分析与网页抓取

Notesnook 开源端到端加密的笔记应用

DeepResearcher基于强化学习的框架，端到端地训练基于LLM（大型语言模型）的深度研究代理

3DGRT利用光线追踪体素高斯粒子，支持复杂相机效果和二次光线

谷歌开放协议Agent2Agent (A2A)为 AI 代理生态系统提供通用的通信标准，实现跨平台、跨应用的智能体协作

ReCamMaster 通过单个视频重新捕捉场景，生成具有全新相机运动轨迹的视频

ORION端到端自动驾驶框架，通过视觉语言模型指导动作生成，实现整体的自主驾驶

Seed-Thinking-v1.5 强化学习训练推理模型

Deskreen 多平台屏幕共享工具，将带有网络浏览器的设备（手机、平板或另一台电脑）转变为电脑的第二屏幕或镜像显示器

XianyuAutoAgent 智能闲鱼客服机器人系统