科学工具
科学工具让世界更美好
让世界更美好
PDF工具
PDF工具Sioyek 学术pdf文档阅读器
Sioyek是一个C语言编写的功能非常强大的学术pdf文档阅读器,能根据文本内容快速跳转引用位置,根据链接在悬浮窗口中预览引用内容,添加辅助窗口,跳转历史页,正则表达式搜索,宏命令扩展等。安装Sioyek可以通过多种方式安装:官方包:使用Homebrew安装(仅限macOS):brew install --cask sioyek第三方包:对于Linux用户,可以从不同的发行版中获取第三方包。这些包由第三方打包者提供,使用时请自行承担风险。功能Sioyek提供了许多实用的功能,能帮助用户更好地管理和阅读P
PDF工具
PDF工具
PDF工具MarkPDFdown:PDF转Markdown工具
MarkPDFdown是基于大型语言模型视觉识别的PDF转Markdown工具,用于将PDF文件转换为高质量的Markdown格式。MarkPDFdown利用多模态AI模型,能够准确提取文本、保留格式,处理复杂的文档结构,如表格、公式和图表。MarkPDFdown的目标是简化将PDF文档转换为可编辑的Markdown文本的过程,通过使用先进的多模态AI模型,可以准确地提取文本并保留格式,处理复杂的文档结构。主要功能PDF转Markdown:可以将任何PDF文档转换为格式良好的Markdown文本。图片转
PDF工具
PDF工具OCRmyPDF 命令行工具将扫描的 PDF 文件转换为可搜索、可复制的文档格式
OCRmyPDF是一个开源命令行工具,可以为扫描的PDF文件添加OCR文字层,让原先只读的文件可以被搜索或复制粘贴。OCRmyPDF支持多种语言,可以通过简单的命令行参数进行配置。OCRmyPDF的主要功能包括:• 从普通的PDF文件生成可搜索的PDF/A文件。• 在图像下方准确放置OCR文字,方便复制粘贴。• 保持嵌入图像的原始分辨率。• 尽可能地以无损操作插入OCR信息,不干扰其他内容。• 优化PDF图像,生成的文件比输入文件小。• 根据需要,在执行OCR之前对图像进行去倾斜和/或清理。• 验证输入
PDF工具
PDF工具PDF Document Layout Analysis PDF文档布局分析基于Docker的服务,用于PDF文档的OCR、分段、分类和元素排序分析
PDF Document Layout Analysis基于Docker的PDF文档布局分析服务,能够对PDF页面的不同部分进行分割和分类,识别出诸如文本、标题、图片、表格等元素,可确定这些元素的正确顺序。PDF Document Layout Analysis有两种模型,一种是视觉模型(称为Vision Grid Transformer - VGT),由阿里巴巴研究团队训练,另一种是LightGBM模型,LightGBM模型不依赖于视觉信息,而是使用Poppler提取的XML信息。视觉模型通常表现更好
PDF工具
PDF工具pdf-ocr-obsidian自动化工作流:使用 Mistral AI OCR API 将 PDF 文档转换为 Markdown 格式
pdf-ocr-obsidian通过Mistral AI OCR API自动化将PDF文件转换为Markdown格式,通过提取PDF中的文本和图像,组织成结构化的Markdown文档,其中图像使用Obsidian风格的wikilinks进行链接。批量处理可以将多个PDF文件放在输入文件夹中,系统会自动处理它们。文本提取将扫描的PDF转换为结构化的Markdown格式,同时保留文档的层次结构。图像提取将图像单独保存,在Markdown中使用Obsidian兼容的![[image-name]]格式进行链接。
PDF工具
PDF工具PDF-Craft:AI扫描书籍PDF转Markdown/EPUB工具,智能处理页眉跨页
PDF Craft 是一个能够将PDF文件转换为多种其他格式功能,能处理扫描书籍的PDF文件。PDF Craft 可以逐页读取PDF文件,使用 DocLayout-YOLO 结合自定义算法提取书籍页面中的文本,过滤掉页眉、页脚、脚注和页码等元素,在处理跨页问题时,算法会正确处理前后页之间的连接,最终生成语义连贯的文本,书籍页面使用 OnnxOCR 进行文本识别,通过 layoutreader 确定符合人类习惯的阅读顺序。功能1、多源数据整合支持Markdown、HTML、扫描图像等多种输入格式,通过统一
PDF工具
PDF工具SmartRead 由AI驱动用于自动注释 PDF 文档
SmartRead 是一款AI驱动的工具,用于自动注释技术 PDF 文档,提取关键信息和重要亮点,能提供相关的文章和视频,帮助用户更好地理解技术内容,用户可以下载带有注释的 PDF 文件,方便日后查阅。SmartRead核心功能1、智能标注:从PDF中提取关键见解和重要亮点,帮助用户快速掌握核心内容。2、相关资源:为选定的技术亮点推荐相关文章和视频,深化理解。3、技术PDF支持:适用于任何技术PDF文档,简化技术文献的阅读过程。4、下载标注PDF:保存标注后的PDF副本,保留所有亮点和注释。技术栈• 前
1