PDF 处理工具包:抽取文本与表格、创建/拆分/合并 PDF,以及表单填充。
来源:基于 anthropics/skills(MIT)内容改写。
概览
常用工具:
- pypdf:合并/拆分/旋转/元数据
- pdfplumber:文本与表格抽取
- reportlab:生成新 PDF
如果需要填写 PDF 表单,请优先阅读 forms.md 的流程。
快速示例(读取与抽取)
from pypdf import PdfReader
reader = PdfReader("document.pdf")
text = "".join(page.extract_text() for page in reader.pages)
print(text)常见操作
- 合并 / 拆分 / 旋转页面
- 提取元数据与基础文本
- 表格抽取并导出到 Excel
- 生成 PDF(reportlab)
- 表单填充(参考 forms.md)
常用脚本
scripts/check_fillable_fields.pyscripts/fill_fillable_fields.pyscripts/convert_pdf_to_images.pyscripts/extract_form_field_info.py
参考资料
forms.md:表单填写流程reference.md:完整示例与高级说明
claudeskills文档