Stripe 在 AWS Bedrock 上构建生产级合规 AI agent：审查时间减少 26%

Stripe 与 AWS 联合披露了其基于 Amazon Bedrock 构建的生产级金融合规 AI agent 系统。该系统将单笔审查的处理时间减少 26%，用户有用率超过 96%，同时将最终决策权牢牢留在人工审核员手中，是大型支付机构在受监管场景落地 agentic AI 的一个代表性案例。

合规审查的规模挑战

Stripe 业务覆盖 50 个国家，年支付处理量约 1.4 万亿美元，约占全球 GDP 的 1.3%，客户中包含 62% 的 Fortune 500 企业。随着业务扩张，合规团队每天需要审查数千笔交易，但据 Stripe 介绍，熟练分析师此前最多会把 80% 的时间花在跨系统收集资料上，真正用于高价值风险评估的时间被严重挤压。Stripe 表示，其方案已在生产中识别出 95% 的卡测试攻击，并将不必要的客户摩擦减少 20%。

为什么选择 Agentic AI

传统自动化在需要判断的复杂合规任务上能力有限，Stripe 因此选择由 AI agent 在保持人工可控的前提下承担辅助调查工作。其设计遵循三大支柱：

监督与问责：以人为中心的验证流程，配备可配置的审批工作流与多层决策检查点，agent 只负责辅助。
透明度：对每一步操作、决策与依据保留不可篡改的完整审计记录。
效率：通过预调查与动态分析，在保持深度的同时加快节奏。

技术架构

Stripe 的方案由三部分组成：任务分解与编排、ReAct agent 框架，以及配套基础设施服务。

任务分解与 DAG 编排

Stripe 没有把整条复杂审查交给单个 agent，而是将其拆解为一组可组合的小型子任务，子任务之间以有向无环图（DAG）描述依赖关系。这种"轨道"机制确保 agent 只在经过质量测试、范围明确的问题上运行，并由 review 工具充当编排器，把人工已确认的答案作为上下文喂给后续子任务。即使每个子任务的 agent 回答都经过严格质量测试，最终仍由人工审核员作答，agent 输出仅作为补充信息。

ReAct Agent 框架

每个子问题由一个基于 ReAct（Reasoning + Acting）模式的合规 agent 处理。除调用 Amazon Bedrock 上的大语言模型进行推理外，agent 还会通过工具调用动态拉取与案件相关的信号，从而在海量潜在信号中挑出真正相关的数据。整套系统运行在一个独立的 agent 服务之上，便于复用与扩缩容。

关键经验

Stripe 总结了几条可在类似受监管场景复用的经验：

把长链路任务拆成可独立验证的小任务，避免单 agent 跑偏。
始终把人工放在决策闭环里，agent 输出只做"建议"。
通过 prompt caching 等手段控制成本，把高频子任务的推理开销降下来。
保留全链路审计痕迹，满足监管对可追溯性的要求。

整体来看，这套系统在不放松合规标准的前提下，把审查人员从繁琐的资料搬运中解放出来，把精力集中在需要判断的风险评估上。对于计划在金融、医疗等强监管行业落地 agent 的团队，Stripe 的实践提供了一个兼顾效率、可解释性与可控性的参考样本。