PDF Document Layout Analysis基于Docker的PDF文档布局分析服务,能够对PDF页面的不同部分进行分割和分类,识别出诸如文本、标题、图片、表格等元素,可确定这些元素的正确顺序。
PDF Document Layout Analysis有两种模型,一种是视觉模型(称为Vision Grid Transformer - VGT),由阿里巴巴研究团队训练,另一种是LightGBM模型,LightGBM模型不依赖于视觉信息,而是使用Poppler提取的XML信息。视觉模型通常表现更好,视觉模型可以看到整个页面并了解所有上下文,但资源消耗更大,LightGBM模型虽然性能稍差,但速度更快,资源消耗更少。
PDF Document Layout Analysis使用了DocLayNet数据集来训练模型,数据集包含11个类别:标题、脚注、公式、列表项、页脚、页眉、图片、节标题、表格、文本和标题。
用户可以通过简单的命令行操作来使用这个服务。
使用视觉模型进行分析:
curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' localhost:5060
如果用户希望使用LightGBM模型,可以使用以下命令:
curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' -F "fast=true" localhost:5060
当处理完成后,输出将包括一系列SegmentBox元素,每个元素都包含有关其位置和类型的信息,用户还可以通过以下命令获取可视化结果:
curl -X POST -F 'file=@/PATH/TO/PDF/pdf_name.pdf' localhost:5060/visualize -o '/PATH/TO/OUTPUT_PDF/pdf_name.pdf'
VGT模型在PubLayNet数据集上的基准测试结果显示,整体准确率为0.962,文本为0.962,标题为0.950,列表为0.939,表格为0.968,图片为0.981,公式为0.971。
对于15页的学术论文文档,GPU加速的VGT模型每页的处理时间为1.75秒,CPU上的VGT模型需要13.5秒。