开源 Rust 工具 pdf-struct-chunker：无需 LLM 的布局感知 PDF 切分器

近期，开发者 Matthias Nordwig 在 GitHub 开源了一款名为 pdf-struct-chunker 的 PDF 文档切分工具。该项目针对 RAG（检索增强生成）流程中常见的「按字数机械切分导致语义断裂」问题，引入基于版面分析的布局感知切分思路，完全使用 Rust 实现，且不依赖任何 LLM 或外部 API。

背景：传统 RAG 切分的痛点

当前主流 RAG 链路中的文档切分器通常按 token 数或字符数固定长度切分，很容易把标题、章节和段落从中间截断。作者以一段法规文本为例：使用传统方法，句子「This regulation applies to all companies. § 2 De-」与下一段的「finitions.」被切到两个分块里，标题与正文彻底脱钩，导致向量检索召回的内容缺乏上下文。

核心思路：版面信息驱动切分

pdf-struct-chunker 不调用任何语言模型，而是直接解析 PDF 底层结构：

提取每个字符的 X/Y 坐标和字体大小；
根据 Y 坐标重建文本行；
通过内置正则或字体大小启发式规则识别标题、章节号、定义等行；
在标题处切分、合并过短片段，超长片段在句末断开。

最终每个分块都附带结构化元数据 section、heading、page，使 RAG 下游能明确知道这段文本来自哪一节、哪一标题、哪一页。

性能与运行特性

项目以「Edge-AI / 离线可用」为设计目标，官方给出的特性包括：

纯 CPU 运行，无需 GPU；
在普通笔记本上 100 页 PDF 处理时间小于 1 秒；
全内存处理，不生成临时文件；
完全离线，无 API 调用。

这一组合对需要本地化部署、保障数据合规的政企、法律类 RAG 场景有较强针对性。

工作流程

处理链路可以概括为四个阶段：

pdf_oxide 解析：提取字符坐标与字体信息；
行分类：按内置或用户自定义正则匹配标题、定义、忽略行等角色；
分块组装：在结构边界切分并合并小片段；
输出 Vec<Chunk>，每块包含文本与元数据。

使用方式

工具同时提供 CLI 和库 API 两种形态。CLI 模式下支持指定输入文件、自定义正则规则文件、JSON / JSONL 输出格式，以及仅输出分块统计信息等参数。库模式下核心函数 chunk_pdf 接受字节流输入，无需文件 I/O，方便嵌入 Web 服务或从 S3、数据库等来源直接读取 PDF。

用户还可以通过 JSON 配置文件自定义正则规则，例如去除页脚行、自定义章节匹配模式，或调整 min_chunk_chars 与 max_chunk_chars 来控制分块粒度。默认配置针对法律和法规类文档（识别 §、Article、Chapter 等章节标记）做了优化。

局限与定位

需要指出的是，该工具只解决「PDF → 语义分块」这一环节，本身不包含向量化、检索或生成能力，需要与现有 embedding 模型和向量库配合使用。另外，其版面分析依赖 pdf_oxide 解析结果，对扫描件或图片型 PDF 无效，必须先经过 OCR 处理。整体来看，这是一个面向 RAG 工程链路的轻量级开源组件，适合在私有化或边缘部署场景中作为文档预处理层使用。