Declaw Arena：用 CTF 方式攻破 AI Agent 沙箱

Declaw 团队在 Hacker News 发布了一款名为 Declaw Arena 的 CTF 式安全挑战平台。与传统 CTF 不同，该平台的目标不是攻破一段代码或一台服务器，而是攻破一个被部署在隔离 microVM 沙箱中的 AI Agent，使其泄露受保护的机密信息。

挑战机制：聊天与 Shell 双入口

Declaw Arena 提供两类挑战入口：

聊天（chat）：直接与充当「数据分析师」的 AI Agent 对话，目标是从一份包含个人身份信息（PII）的客户数据库中，套取特定客户的 SSN、信用卡号或邮箱。
Shell（shell）：在拿到根 Shell 权限后，尝试逃逸出 microVM 沙箱边界。

每个会话都在独立的 Declaw 沙箱中运行，时长上限为 10 分钟，无需注册。

沙箱策略与攻破率

Arena 用同一套 Agent、同一份秘密、同一套沙箱基础设施，仅通过调整「运行时策略」的强度来生成不同难度的挑战。平台披露的初步测试数据如下：

无策略（No policies）：47% 被攻破，21 / 45
部分策略（Partial policies）：41% 被攻破，16 / 39
Declaw 全量策略：0% 被攻破，0 / 63

数据表明，在完全开启 Declaw 运行时策略的情况下，目前尚无挑战者能够成功从 AI Agent 处套取到目标数据，或从 Shell 路径逃逸出沙箱。

定位与意义

随着大模型驱动的 Agent 越来越多地接入数据库、终端与外部工具，Agent 自身面临的提示词注入、工具滥用与沙箱逃逸风险成为新的安全议题。Declaw Arena 的思路是把这些风险抽象为可重复、可度量的对抗实验：每条策略配置对应一组实验样本，攻破率直接反映该策略的有效性。对于研究 Agent 安全边界的开发者和红队而言，这类基准式平台比单次渗透测试更能提供横向对比依据。

需要注意的是，原文为产品着陆页式介绍，平台尚未公开更多技术细节，如底层 microVM 实现、策略语言、Agent 模型来源等均未披露，目前可获取的信息以官方给出的攻破率统计为主。