AWS 分享在 Bedrock 上构建弹性 LLM 推理的五种模式

生成式 AI 工作负载正从实验走向规模化生产，LLM 推理的弹性设计也随之成为关键议题。AWS 在其官方机器学习博客中发布了一篇技术长文，提出五种可在 Amazon Bedrock 上渐进式落地的推理弹性模式，帮助开发者在多模型、多区域环境中维持高可用、响应及时且成本可控的推理服务。整体思路遵循「爬、走、跑」的渐进式演进，开发者可根据自身成熟度选择合适起点。

推理弹性的四个核心维度

在设计生产级推理架构时，AWS 归纳出四个相互关联的关键维度：

可用性：在模型、区域或服务商出现故障时，仍能持续提供推理能力。
响应时延：用户感知到的速度，常用 Time to First Token（TTFT，首 token 延迟）和 Time to Last Token（TLTP，末 token 延迟）衡量。
成本：包括单 token 与单请求的开销，以及路由策略对成本的影响。
吞吐：系统在负载下可承受的并发请求数与每秒 token 数。

需要注意的是，跨区域路由虽然能提升可用性与吞吐，却可能增加响应时延。文章聚焦于「可用性」层面，后续将另文讨论时延优化与成本感知路由。

五种渐进式弹性模式概览

文章提出的五种模式由浅入深，从 Bedrock 原生能力逐步过渡到多模型编排：

Pattern 1：Bedrock 跨区域推理（CRIS）：利用 Bedrock 内置的跨区域推理配置文件，自动将请求路由到最优目标区域，降低单区域限流风险并提升整体吞吐。配置文件通常绑定同一地理范围内的商业区域，以兼顾性能与延迟；Global 配置文件则可在更高时延容忍度下跨更大地理范围分摊负载。
Pattern 2：多 AWS 账户分片：在 CRIS 基础上，将请求分发到多个独立的 AWS 账户，每个账户拥有独立的配额与 CRIS 配置，形成天然故障隔离边界，特别适合多团队、多租户架构。
Pattern 3–5：分别涉及 LLM 网关层的智能路由、限流隔离与多模型编排，用于解决配额争抢、租户间相互干扰以及跨服务商灵活调度等更复杂的问题。

实测数据示例

以 10 条请求为例，使用 CRIS 时，Bedrock 自动将推理分发到 3 个 AWS 区域：

us-east-1：10%
us-east-2：70%
us-west-2：20%

进一步启用两账户分片后，每个账户独立调度其区域内推理：

账户 1：us-east-2 占 70%，us-west-2 占 30%
账户 2：按其 CRIS 配置独立分布

这表明 CRIS 与账户分片都能有效打散集中流量，避免单一区域或账户成为瓶颈。

落地建议与注意事项

文章配套的 GitHub 仓库提供了每个模式的代码示例与部署脚本。需要注意：

演示过程会产生 Bedrock 推理调用与 CloudWatch 日志相关费用，测试完成后应按 Cleanup 章节清理资源，避免持续计费。
弹性模式的取舍取决于业务对可用性、时延、成本的优先级排序，建议从最简单的 CRIS 入手，再逐步叠加网关层能力。

总体而言，这篇文章为正在或计划将生成式 AI 应用上生产的团队提供了一份相对系统的弹性架构参考清单，强调「默认弹性」与「渐进增强」的工程思路。