桃子桃子 AI 快讯
返回首页
工具

AWS 展示 Nova 2 Lite + Claude 双模型年鉴文档处理方案

AWS 提出在 Bedrock 上串联 Nova 2 Lite 与 Claude Sonnet 4.6 的两阶段流水线,…

2026.06.30 · 周二4 分钟阅读评分 56
评分细项加权总分 56
重要性
48
新颖性
55
影响面
42
可信度
90
实质性
78

AWS 机器学习博客近日发布了一篇技术方案,介绍如何将 Amazon Nova 2 Lite 与 Anthropic 的 Claude Sonnet 4.6 串联使用,在 Amazon Bedrock 上构建一套高效、低成本的扫描文档数字化流水线。该方案以「年鉴页面人名–照片匹配」为典型场景进行验证。

核心思路:两阶段分工

整套流水线分为两步,分别由两个模型承担不同任务:

  • 阶段一(Nova 2 Lite):利用其原生多模态能力,单次 Converse API 调用即可完成照片检测与边界框定位、可见姓名的提取与坐标输出,以及页面级元数据(如标题、分类)的生成。
  • 阶段二(Claude Sonnet 4.6):接收 Nova 返回的「姓名 + 位置」和「照片 + 边界框」,依据页面版式进行空间推理,判断哪些姓名对应哪些人脸。

这种分工的关键在于:Nova 只负责提取人名而非整页 OCR 文本,将单页输出 token 控制在约 1,000 个,远低于一次完整 OCR 的约 4,500 个 token,从而显著降低第一阶段的输出成本。

效果验证:336 页年鉴测试

方案在 336 张扫描年鉴页面上进行了实测,共生成 3,122 条姓名–人脸关联,其中 93% 的匹配置信度达到或超过 0.95

在阶段一中,Nova 2 Lite 的推理档位被设为 LOW;测试显示 LOW、MEDIUM、HIGH 三档在该结构化抽取任务上的准确率无明显差异,因此选择成本最低的 LOW 档。阶段二的 Claude 则启用 adaptive thinking,由模型根据版式复杂度自适应决定推理深度,无需针对不同版式分别调参。

成本拆解:每页约 0.27 美分

Nova 2 Lite 近期引入了「图像与文档页输入按固定单价计费」的定价方式,与图像分辨率和文件大小无关。这使得大规模文档批处理时的成本预测更简单——图像输入成本与页数线性相关,无需再做分辨率归一化。

以单页完整抽取(含 prompt 与输出)为例:

  • 图像 token:约 230 个,按 $0.30/M 输入计,约 $0.000069;
  • Prompt token:约 500 个,按 $0.30/M 输入计,约 $0.000150;
  • 输出 token:约 1,000 个,按 $2.50/M 输出计,约 $0.0025;
  • 合计约 $0.0027 / 页

相比将整页任务交给单一视觉语言模型的方案,这种两模型流水线每页成本降低约三分之二。对于年鉴级(每年数十万页)的处理量,固定计费模式让成本预算变得更加直观。

实现要点

  • Nova 2 Lite:在 Converse API 中通过 reasoning_config 字段设置推理档位;只需让其返回人名及位置,避免全量 OCR 输出。
  • Claude Sonnet 4.6:在 additionalModelRequestFieldsthinking 字段中设置 type: adaptive,即可让模型按输入复杂度自主调节推理深度,适合版式多变的人名–人脸匹配任务。

整体而言,这一方案展示了在 Bedrock 平台上通过模型组合实现「成本–质量」平衡的一种工程范式,对需要批量处理扫描档案、证件或历史文档的团队具有一定参考价值。

信源