Guardian v0.1.0：开源 AI 代理用户态防火墙

Guardian 是一个定位为「AI 代理用户态防火墙」的开源项目，近日发布 v0.1.0 版本。它用 Rust 实现，不依赖内核模块，作为本地服务运行在 AI 代理与系统资源（文件、Shell、网络、第三方服务）之间，对每一次代理尝试执行的动作进行结构化拦截与策略评估。项目以 Apache-2.0 协议开源，工作区共 196 个测试用例全部通过。

项目定位与核心思路

Guardian 把 AI 代理视作「不可信主体」：代理发起的每个动作都会被解析为结构化事件，送入一个确定性策略引擎进行裁决。当需要人工介入时，会先由一个独立的「翻译」模型用自然语言解释动作含义，再由用户通过 TUI 审批面板或桌面通知放行或拒绝。

设计上它强调三点：

代理无关：不关心底层模型是 Claude、GPT、Llama 还是其他，只要走 MCP 工具调用即可接入。
用户态运行：不安装内核模块，与操作系统不发生控制权冲突。
可审计：所有裁决进入可篡改证据的审计日志，可选使用密封密钥签名。

已实现的功能模块

截至 v0.1.0，项目已完成 Phase 4 硬化阶段，主要模块包括：

确定性策略引擎与「咨询型 Checker」
可篡改证据的审计日志（可选密钥签名）
MCP 网关 + stdio 传输
守护进程 + 控制套接字，以及终端审批面板（TUI）
AgentDojo 评估套件
网络代理：TLS 拦截、凭据注入、外泄检测、默认拒绝出站、面板 ask 路由
操作系统级执行沙箱
凭据代理：操作系统钥匙串 + 最小权限约束
轻量级可验证凭据
自适应建议与安全报告
ed25519 签名的社区策略包
关键类别底线：涉及金钱、凭据、外泄、不可逆删除的动作永远不能因签名策略包而静默放行

桌面 GUI 与签名/公证化的分发包被列为 1.0 的剩余工作。

评估结果

项目方公布了在 AgentDojo 与自建基准上的测试数据：

在本地 12B 代理 + AgentDojo 银行套件上，提示注入攻击成功率由 100% 降至 0%（对资金相关动作直接确定性拒绝）。
自建基准 GuardianBench（8 个领域、面向动作防火墙设计）：漏报率 0%、误报率 0%、拒绝正确性 100%；凭据代理层的 PII 泄露率同样为 0%。

完整成绩单（包括动作防火墙能力范围之外的边界说明）公开在仓库 evaluation/ 目录下。

使用方式与限制

项目提供预编译二进制与源码构建两种途径：guardian init 生成 ~/.guardian/{config.toml, policy.toml} 并打印 MCP 客户端接入片段（兼容 Claude Code、Cursor 等）；也可通过 cargo build --release 从源码编译，并运行 demo、eval、guardianbench 等子命令验证效果。

需要注意的是，README 自带醒目免责声明：v0.1.0 仍属早期软件，未经认证与审计，不得作为高风险或受监管工作负载的唯一防线，使用者需自行评估策略配置与数据路由的安全性。