Rampart 开源：14.7MB 端侧模型，浏览器内实时屏蔽个人隐私

美国国家设计工作室（National Design Studio）近日开源了一款名为 Rampart 的端侧个人信息过滤系统。该项目主打「本地优先」理念：用户输入的姓名、地址、身份证号等敏感内容，会在浏览器内、消息发出之前被自动识别并脱敏，全程不经过任何远程服务器。整套模型体积仅 14.7MB，在 WebGPU 下 p50 延迟为 3.9ms，可作为 AI 对话场景下保护隐私的第一道防线。

设计思路：规则 + 小模型双层过滤

Rampart 采用「确定性规则 + 小型语言模型」的两层架构：

规则层：用正则表达式结合真实校验逻辑，捕获具有明确结构的隐私字段，包括社会安全号、信用卡号、电话号码、银行路由号与账号、邮箱、IP 地址、政府证件号等。这一层速度快、可解释。
模型层：规则难以穷举姓名、街道地址等开放实体，因此引入 MiniLM 在句内做上下文理解，识别并遮蔽属于特定类别的个人信息。

脱敏后，浏览器会在本地临时保存相关 PII 片段，以便在用户后续操作中「填回」被遮蔽的部分，实现无感替换。

Benchmark：体积最小，召回最高

Rampart 在 AI4Privacy 发布的 OpenPII 1.5M 数据集上训练，并在覆盖 7 种拉丁语系语言的 3 万行 held-out 测试集上做了端到端评测。结果如下：

Rampart（确定性 + 模型，14.7 MB）：私有信息召回率 98.42%
GLiNER small v2.1（约 600 MB）：97.4%
Community BERT-small PII Model（约 29 MB）：81.5%
Microsoft Presidio（确定性 + 模型，约 13 MB）：65%
AWS Bedrock Guardrails（云端）：63.8%

在 7 种语言的整体召回率上，Rampart 也达到 98.4%。值得注意的是，AWS Bedrock Guardrails 作为云端方案召回率反而最低，说明在 PII 过滤这一细分任务上，体积并非主要瓶颈，数据与流水线设计更为关键。

局限与适用场景

Rampart 目前仍为 alpha 版本，官方明确将其定位为「更完整隐私保护体系中的第一道防线」，并非可单独依赖的完整方案。当前支持英语、西班牙语、法语、德语、意大利语、葡萄牙语和荷兰语七种语言。

对于希望在浏览器侧为 AI 对话增加隐私保护层的开发者与团队，Rampart 提供了 HuggingFace 模型权重、NPM 库以及白皮书等接入方式，部署门槛较低。