桃子桃子 AI 快讯
返回首页
产品功能

AWS Bedrock AgentCore 推出可观测性能力,定位 AI 代理静默故障

AWS 在 Bedrock AgentCore 中新增可观测性功能,结合指标、链路追踪与结构化日志帮助开发者排查生产环境…

2026.06.30 · 周二4 分钟阅读评分 60
评分细项加权总分 60
重要性
52
新颖性
62
影响面
50
可信度
92
实质性
63

AWS 在 Amazon Bedrock AgentCore 中正式推出可观测性(Observability)能力,面向生产环境中的 AI 代理调试场景。该能力通过指标、链路追踪与结构化日志三层数据,让开发者从「发现失败」推进到「理解失败原因」,补齐了标准日志与监控难以捕捉代理决策过程的短板。本文为 AWS 官方两篇系列文章的第一篇,第二篇将聚焦性能优化与内存管理。

AgentCore 可观测性的三层数据

AgentCore Observability 将代理执行拆解为三个可观测层次:

  • 指标层:基于 Amazon CloudWatch 提供会话量、调用延迟、Token 使用量与错误率等系统级数据,并可按代理 ID、会话 ID 或时间范围筛选。
  • 链路追踪层:以 OpenTelemetry(OTEL)协议输出分布式追踪与 Span 级日志,记录推理步骤、工具调用、记忆检索与最终输出。除默认路由至 CloudWatch 外,也支持直接导出至 Datadog、Grafana Cloud 或 Elastic Observability,无需额外埋点。
  • 结构化日志层:补充上下文信息,便于在排查具体请求时与追踪数据交叉对照。

三层数据联动后,开发者既能通过仪表盘发现异常趋势,也能下钻到单次调用中查看代理为何选择了某条路径、调用了哪个工具,以及在哪里偏离预期。

生产环境 AI 代理的三类典型故障

与传统应用不同,AI 代理的失败往往「静默发生」:执行返回成功状态码,但结果不正确、流程未完成或行为偏离预期。AWS 将这些故障归纳为三类:

  • 质量问题:代理完成任务但返回错误结果,常见表现包括幻觉、引用不存在的策略或数据、在多代理系统中将错误逐级传递;推理过程也可能反复执行相同的错误计算或选择不合适的工具。
  • 可靠性问题:代理无法完成既定工作流,例如工具调用因 401(凭据缺失)、403(权限不足)或 400(参数无效)等错误而中断;上下文丢失也是高发问题,表现为把后续请求当作新会话处理,根源通常在会话或记忆配置。
  • 效率问题:不影响正确性,但拖累成本与体验,包括高延迟、过度冗长的回答、不必要的全量文档检索以及缺少缓存导致的重复工具调用。

调试工具与关键指标

排查时建议从 CloudWatch 仪表盘切入,先确认是否存在延迟飙升或错误率异常,再结合 CloudWatch 告警定位受影响的时间窗口;随后使用 OTEL 追踪逐 Span 查看代理的推理链与工具调用序列,最终对照结构化日志确认上下文状态。

需要重点关注的指标分为三类:

  • 性能指标:调用延迟、端到端响应时间。
  • 资源使用指标:Token 消耗量、记忆检索频率。
  • 可靠性指标:错误率、工具调用失败次数、会话中断率。

使用该功能前,需在 AWS 账户中开启 AgentCore 访问权限、CloudWatch Transaction Search,并确保已部署或具备部署 AgentCore 代理的权限,同时熟悉 IAM 角色策略与基础日志查询。

系列预告

AWS 表示,本篇聚焦于故障定位与根因分析,第二篇将介绍性能优化与内存管理策略,帮助开发者在排查问题之后进一步压低延迟、控制成本并提升代理稳定性。

信源