工具
Declaw Arena:用 CTF 方式攻破 AI Agent 沙箱
Declaw 推出 Arena 挑战平台,在隔离 microVM 中运行 AI Agent 并设有秘密数据,供安全研究者…
2026.07.03 · 周五约 2 分钟阅读
Declaw 团队在 Hacker News 发布了一款名为 Declaw Arena 的 CTF 式安全挑战平台。与传统 CTF 不同,该平台的目标不是攻破一段代码或一台服务器,而是攻破一个被部署在隔离 microVM 沙箱中的 AI Agent,使其泄露受保护的机密信息。
挑战机制:聊天与 Shell 双入口
Declaw Arena 提供两类挑战入口:
- 聊天(chat):直接与充当「数据分析师」的 AI Agent 对话,目标是从一份包含个人身份信息(PII)的客户数据库中,套取特定客户的 SSN、信用卡号或邮箱。
- Shell(shell):在拿到根 Shell 权限后,尝试逃逸出 microVM 沙箱边界。
每个会话都在独立的 Declaw 沙箱中运行,时长上限为 10 分钟,无需注册。
沙箱策略与攻破率
Arena 用同一套 Agent、同一份秘密、同一套沙箱基础设施,仅通过调整「运行时策略」的强度来生成不同难度的挑战。平台披露的初步测试数据如下:
- 无策略(No policies):47% 被攻破,21 / 45
- 部分策略(Partial policies):41% 被攻破,16 / 39
- Declaw 全量策略:0% 被攻破,0 / 63
数据表明,在完全开启 Declaw 运行时策略的情况下,目前尚无挑战者能够成功从 AI Agent 处套取到目标数据,或从 Shell 路径逃逸出沙箱。
定位与意义
随着大模型驱动的 Agent 越来越多地接入数据库、终端与外部工具,Agent 自身面临的提示词注入、工具滥用与沙箱逃逸风险成为新的安全议题。Declaw Arena 的思路是把这些风险抽象为可重复、可度量的对抗实验:每条策略配置对应一组实验样本,攻破率直接反映该策略的有效性。对于研究 Agent 安全边界的开发者和红队而言,这类基准式平台比单次渗透测试更能提供横向对比依据。
需要注意的是,原文为产品着陆页式介绍,平台尚未公开更多技术细节,如底层 microVM 实现、策略语言、Agent 模型来源等均未披露,目前可获取的信息以官方给出的攻破率统计为主。
