| **速度** | 即时 | ~1-14秒/页(CPU),~0.2秒/页(GPU) |
决策:除非需要 OCR、公式、表单或复杂版面分析,否则使用 pymupdf。
如果用户需要 marker 的能力但系统剩余空间不足 ~5GB:
> "此文档需要 OCR/高级提取(marker-pdf),需要约 5GB 空间安装 PyTorch 和模型。您的系统还有 [X]GB 可用。可选方案:释放空间、提供 URL 让我使用 web_extract、或者我尝试用 pymupdf(适用于文本型 PDF,但不支持扫描件或公式)。"
---
pymupdf(轻量版)
pip install pymupdf pymupdf4llm
通过辅助脚本:
python scripts/extract_pymupdf.py document.pdf # 纯文本
python scripts/extract_pymupdf.py document.pdf --markdown # Markdown
python scripts/extract_pymupdf.py document.pdf --tables # 表格
python scripts/extract_pymupdf.py document.pdf --images out/ # 提取图片
python scripts/extract_pymupdf.py document.pdf --metadata # 标题、作者、页数
python scripts/extract_pymupdf.py document.pdf --pages 0-4 # 指定页面
内联代码:
python3 -c "
import pymupdf
doc = pymupdf.open('document.pdf')
for page in doc:
print(page.get_text())
"
---
marker-pdf(高质量OCR)
# 先检查磁盘空间
python scripts/extract_marker.py --check
pip install marker-pdf
通过辅助脚本:
python scripts/extract_marker.py document.pdf # Markdown
python scripts/extract_marker.py document.pdf --json # 带元数据的 JSON
python scripts/extract_marker.py document.pdf --output_dir out/ # 保存图片
python scripts/extract_marker.py scanned.pdf # 扫描件 PDF (OCR)
python scripts/extract_marker.py document.pdf --use_llm # LLM 增强精度
CLI(随 marker-pdf 安装):
marker_single document.pdf --output_dir ./output
marker /path/to/folder --workers 4 # 批量处理
---
Arxiv 论文
# 仅摘要(速度快)
web_extract(urls=["https://arxiv.org/abs/2402.03300"])
# 全文
web_extract(urls=["https://arxiv.org/pdf/2402.03300"])
# 搜索
web_search(query="arxiv GRPO reinforcement learning 2026")
拆分、合并与搜索
pymupdf 原生支持这些操作——使用 execute_code 或内联 Python:
# 拆分:提取第1-5页生成新 PDF
import pymupdf
doc = pymupdf.open("report.pdf")
new = pymupdf.open()
for i in range(5):
new.insert_pdf(doc, from_page=i, to_page=i)
new.save("pages_1-5.pdf")
# 合并多个 PDF
import pymupdf
result = pymupdf.open()
for path in ["a.pdf", "b.pdf", "c.pdf"]:
result.insert_pdf(pymupdf.open(path))
result.save("merged.pdf")
# 在所有页面中搜索文本
import pymupdf
doc = pymupdf.open("report.pdf")
for i, page in enumerate(doc):
results = page.search_for("revenue")
if results:
print(f"第{i+1}页:{len(results)} 处匹配")
print(page.get_text("text"))
无需额外依赖——pymupdf 一个包即可完成拆分、合并、搜索和文本提取。
---
注意事项
有 URL 时 web_extract 永远是首选
pymupdf 是安全的默认选择——即时、无需模型、任何环境都能用
marker-pdf 用于 OCR、扫描文档、公式、复杂版面——仅在需要时安装
两个辅助脚本都支持 --help 查看完整用法
marker-pdf 首次使用会在 ~/.cache/huggingface/ 下载约 2.5GB 模型
Word 文档:使用 pip install python-docx(比 OCR 更好——解析实际文档结构)
PowerPoint:参见 powerpoint 技能(使用 python-pptx)
评论区