科学工具
科学工具让世界更美好
让世界更美好

PDF Document Layout Analysis PDF文档布局分析基于Docker的服务,用于PDF文档的OCR、分段、分类和元素排序分析PDF Document Layout Analysis PDF文档布局分析基于Docker的服务,用于PDF文档的OCR、分段、分类和元素排序分析

PDF Document Layout Analysis基于Docker的PDF文档布局分析服务,能够对PDF页面的不同部分进行分割和分类,识别出诸如文本、标题、图片、表格等元素,可确定这些元素的正确顺序。

PDF Document Layout Analysis有两种模型,一种是视觉模型(称为Vision Grid Transformer - VGT),由阿里巴巴研究团队训练,另一种是LightGBM模型,LightGBM模型不依赖于视觉信息,而是使用Poppler提取的XML信息。视觉模型通常表现更好,视觉模型可以看到整个页面并了解所有上下文,但资源消耗更大,LightGBM模型虽然性能稍差,但速度更快,资源消耗更少。

数据集

PDF Document Layout Analysis使用了DocLayNet数据集来训练模型,数据集包含11个类别:标题、脚注、公式、列表项、页脚、页眉、图片、节标题、表格、文本和标题。

使用方法

用户可以通过简单的命令行操作来使用这个服务。

使用视觉模型进行分析:

curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' localhost:5060

如果用户希望使用LightGBM模型,可以使用以下命令:

curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' -F "fast=true" localhost:5060

输出结果

当处理完成后,输出将包括一系列SegmentBox元素,每个元素都包含有关其位置和类型的信息,用户还可以通过以下命令获取可视化结果:

curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' localhost:5060/visualize -o '/PATH/TO/OUTPUT_PDF/pdf_name.pdf'

性能基准

VGT模型在PubLayNet数据集上的基准测试结果显示,整体准确率为0.962,文本为0.962,标题为0.950,列表为0.939,表格为0.968,图片为0.981,公式为0.971。

对于15页的学术论文文档,GPU加速的VGT模型每页的处理时间为1.75秒,CPU上的VGT模型需要13.5秒。