Guardian v0.1.0:开源 AI 代理用户态防火墙
Rust 实现的代理防火墙,拦截 AI 对文件、Shell 与网络的敏感操作,银行套件提示注入成功率从 100% 降至…
- 重要性
- 50
- 新颖性
- 60
- 影响面
- 40
- 可信度
- 65
- 实质性
- 70
Guardian 是一个定位为「AI 代理用户态防火墙」的开源项目,近日发布 v0.1.0 版本。它用 Rust 实现,不依赖内核模块,作为本地服务运行在 AI 代理与系统资源(文件、Shell、网络、第三方服务)之间,对每一次代理尝试执行的动作进行结构化拦截与策略评估。项目以 Apache-2.0 协议开源,工作区共 196 个测试用例全部通过。
项目定位与核心思路
Guardian 把 AI 代理视作「不可信主体」:代理发起的每个动作都会被解析为结构化事件,送入一个确定性策略引擎进行裁决。当需要人工介入时,会先由一个独立的「翻译」模型用自然语言解释动作含义,再由用户通过 TUI 审批面板或桌面通知放行或拒绝。
设计上它强调三点:
- 代理无关:不关心底层模型是 Claude、GPT、Llama 还是其他,只要走 MCP 工具调用即可接入。
- 用户态运行:不安装内核模块,与操作系统不发生控制权冲突。
- 可审计:所有裁决进入可篡改证据的审计日志,可选使用密封密钥签名。
已实现的功能模块
截至 v0.1.0,项目已完成 Phase 4 硬化阶段,主要模块包括:
- 确定性策略引擎与「咨询型 Checker」
- 可篡改证据的审计日志(可选密钥签名)
- MCP 网关 + stdio 传输
- 守护进程 + 控制套接字,以及终端审批面板(TUI)
- AgentDojo 评估套件
- 网络代理:TLS 拦截、凭据注入、外泄检测、默认拒绝出站、面板 ask 路由
- 操作系统级执行沙箱
- 凭据代理:操作系统钥匙串 + 最小权限约束
- 轻量级可验证凭据
- 自适应建议与安全报告
- ed25519 签名的社区策略包
- 关键类别底线:涉及金钱、凭据、外泄、不可逆删除的动作永远不能因签名策略包而静默放行
桌面 GUI 与签名/公证化的分发包被列为 1.0 的剩余工作。
评估结果
项目方公布了在 AgentDojo 与自建基准上的测试数据:
- 在本地 12B 代理 + AgentDojo 银行套件上,提示注入攻击成功率由 100% 降至 0%(对资金相关动作直接确定性拒绝)。
- 自建基准 GuardianBench(8 个领域、面向动作防火墙设计):漏报率 0%、误报率 0%、拒绝正确性 100%;凭据代理层的 PII 泄露率同样为 0%。
完整成绩单(包括动作防火墙能力范围之外的边界说明)公开在仓库 evaluation/ 目录下。
使用方式与限制
项目提供预编译二进制与源码构建两种途径:guardian init 生成 ~/.guardian/{config.toml, policy.toml} 并打印 MCP 客户端接入片段(兼容 Claude Code、Cursor 等);也可通过 cargo build --release 从源码编译,并运行 demo、eval、guardianbench 等子命令验证效果。
需要注意的是,README 自带醒目免责声明:v0.1.0 仍属早期软件,未经认证与审计,不得作为高风险或受监管工作负载的唯一防线,使用者需自行评估策略配置与数据路由的安全性。
