神秘 Agent MopMonk 跻身 CyberGym 全球第七

近日，一个名为 MopMonk（代号「扫地僧」）的匿名 AI 安全 Agent 在 UC Berkeley 团队发布的 CyberGym 网络安全基准上以 73.1% 的成功率位列全球第七，紧随 OpenAI 等头部机构，并刷新了中国团队在该榜单上的历史最高分。MopMonk 团队公开了 GitHub 技术报告（github.com/MopMonkAI/MopMonkAgent），但未披露公司、团队成员或任何官方账号。

关于 CyberGym 基准

CyberGym 由 UC Berkeley 团队推出，核心论文已被 ICLR 2026 接收，包含 1507 个真实漏洞实例，覆盖 188 个开源项目，题目全部来自 Google OSS-Fuzz 沉淀的历史漏洞，规模约为此前最大公开基准（NYU CTF，约 200 题）的 7.5 倍。

要求 AI 在真实代码库中生成可触发漏洞的 PoC（Proof of Concept），并在「漏洞版本触发、修复版本不触发」的差分判定下通过验证。
任务在封闭、断网环境中执行，AI 只能依赖对代码库的理解与自身记忆。
由于规模、真实度与难度兼具，目前已成为 AI 网络安全能力评估领域被广泛引用的公开基准之一，微软、OpenAI、Anthropic、谷歌、Meta、智谱等团队均已提交成绩。

MopMonk 的成绩与方法

依据 MopMonk 的 GitHub 技术报告，该系统是一款专为漏洞挖掘设计的安全多 Agent 框架，基座模型为 MiniMax M3——一款具备编程能力、1M 超长上下文与原生多模态能力的开源基座，在 SWE-Bench Pro 上得分 59.0%、Terminal-Bench 2.1 得分 66.0%、MCP Atlas 得分 74.2%。

MopMonk 的核心方法围绕「结构化记忆」展开，可归纳为三部分：

结构化的漏洞记忆：将任务事实记忆围绕漏洞目标、代码路径、输入格式、候选 PoC、失败证据与「下一步约束」等关键对象组织，而非简单堆叠聊天记录或堆砌上下文。
记忆驱动的漏洞挖掘：每次探索尝试读取当前记忆、测试具体假设、回写结果，使候选 PoC 的变异能继承此前积累的路径与格式知识，避免每轮从零开始。
共享记忆下的多 Agent 并行探索：多个 Agent 共享同一份漏洞记忆，从补丁线索、入口点、文件格式字段、sanitizer 类型、边界条件等方向同时推进，避免重复无效探索。

报告显示，决定成绩的关键并非仅是基座模型本身，而在于 Harness（模型与外部工具、执行环境之间的协调层）的工程厚度——它将模型的「思考」转化为可持续执行的「行动」。在 CyberGym 这类长程、真实攻防任务上，Harness 对最终成绩的影响可能不亚于基座模型的规模。

团队身份仍是悬念

截至目前，MopMonk 团队的公开信息极为有限：仅有一份 GitHub 技术报告与一个英文代号，无官网、官博或正式新闻稿。结合其代号的中国武侠色彩、所使用基座模型关联公司位于上海等线索，业内普遍推测其为中国团队，但具体归属尚无实锤。

启示

MopMonk 的成绩提供了一个参照：在长程、真实攻防任务上，Harness 的工程设计——尤其是记忆管理与多 Agent 协调——可能比单纯堆参数更具决定性。一套围绕记忆中心设计的 Agent 框架具备跨基座迭代持续复用的潜力，文章称这或许是比「再堆一倍参数」更值得投入的方向。