AWS 展示 Nova 2 Lite + Claude 双模型年鉴文档处理方案

AWS 机器学习博客近日发布了一篇技术方案，介绍如何将 Amazon Nova 2 Lite 与 Anthropic 的 Claude Sonnet 4.6 串联使用，在 Amazon Bedrock 上构建一套高效、低成本的扫描文档数字化流水线。该方案以「年鉴页面人名–照片匹配」为典型场景进行验证。

核心思路：两阶段分工

整套流水线分为两步，分别由两个模型承担不同任务：

阶段一（Nova 2 Lite）：利用其原生多模态能力，单次 Converse API 调用即可完成照片检测与边界框定位、可见姓名的提取与坐标输出，以及页面级元数据（如标题、分类）的生成。
阶段二（Claude Sonnet 4.6）：接收 Nova 返回的「姓名 + 位置」和「照片 + 边界框」，依据页面版式进行空间推理，判断哪些姓名对应哪些人脸。

这种分工的关键在于：Nova 只负责提取人名而非整页 OCR 文本，将单页输出 token 控制在约 1,000 个，远低于一次完整 OCR 的约 4,500 个 token，从而显著降低第一阶段的输出成本。

效果验证：336 页年鉴测试

方案在 336 张扫描年鉴页面上进行了实测，共生成 3,122 条姓名–人脸关联，其中 93% 的匹配置信度达到或超过 0.95。

在阶段一中，Nova 2 Lite 的推理档位被设为 LOW；测试显示 LOW、MEDIUM、HIGH 三档在该结构化抽取任务上的准确率无明显差异，因此选择成本最低的 LOW 档。阶段二的 Claude 则启用 adaptive thinking，由模型根据版式复杂度自适应决定推理深度，无需针对不同版式分别调参。

成本拆解：每页约 0.27 美分

Nova 2 Lite 近期引入了「图像与文档页输入按固定单价计费」的定价方式，与图像分辨率和文件大小无关。这使得大规模文档批处理时的成本预测更简单——图像输入成本与页数线性相关，无需再做分辨率归一化。

以单页完整抽取（含 prompt 与输出）为例：

图像 token：约 230 个，按 $0.30/M 输入计，约 $0.000069；
Prompt token：约 500 个，按 $0.30/M 输入计，约 $0.000150；
输出 token：约 1,000 个，按 $2.50/M 输出计，约 $0.0025；
合计约 $0.0027 / 页。

相比将整页任务交给单一视觉语言模型的方案，这种两模型流水线每页成本降低约三分之二。对于年鉴级（每年数十万页）的处理量，固定计费模式让成本预算变得更加直观。

实现要点

Nova 2 Lite：在 Converse API 中通过 reasoning_config 字段设置推理档位；只需让其返回人名及位置，避免全量 OCR 输出。
Claude Sonnet 4.6：在 additionalModelRequestFields 的 thinking 字段中设置 type: adaptive，即可让模型按输入复杂度自主调节推理深度，适合版式多变的人名–人脸匹配任务。

整体而言，这一方案展示了在 Bedrock 平台上通过模型组合实现「成本–质量」平衡的一种工程范式，对需要批量处理扫描档案、证件或历史文档的团队具有一定参考价值。