AI 代理重塑安全攻防：攻击面扩大，防御者处境更难了

一篇发表于 Hacker News 的分析文章认为，过去半年大模型在工具调用与结构化输出上的可靠性显著提升，使自主式攻击代理从概念走向现实；同时，开源去审查模型与 AI 生成代码的普及，正在让攻防两端的不对称进一步向攻击者倾斜。

工具调用已不再是瓶颈

作者坦言，早期对 Anthropic 关于国家级攻击者使用 Claude 的声明持怀疑态度——彼时连让模型正确触发函数调用都要反复调试，看不到真正的攻击价值。但近半年情况发生了变化：

大模型工具调用基本成为「已解决问题」，输出结构稳定可靠。
同一能力正被下放到可在本地运行的小模型。
攻击代理可以可靠地编辑原始 HTTP 请求、跟踪 source-to-sink 链路、读取响应、存储记忆并决策下一步动作。

「猴子按按钮」的思想实验

文章用一个类比说明 AI 在攻击中的角色：十年前给一只猴子一个按钮，每次按下就运行 SQLmap，确实能拿下不少有漏洞的目标；但遇到自定义鉴权逻辑、多角色接口或重 JavaScript 站点时，传统工具就会失效。

换上 AI harness（OpenCode、Codex 等）后：

模型读取目标响应后动态调整策略，切换工具。
SQLmap 失效时改用 curl 创建不同角色账号，再继续探测。
AI 不替代工具，而是按需编排工具链。

虽然代理本身具有非确定性——同一目标每次结果可能不同——但「有命中」仍远好于「100% 漏报」。按钮能做的事上限被显著抬高。

护栏是功能，不是保证

闭源模型（Claude、GPT 等）确实会拒绝恶意请求，越狱与封堵持续拉锯。但这只是故事的一半：

DeepSeek、GLM 等能力足够的开源权重模型可自托管。
Heretic 等工具可以永久剥离模型的安全与审查对齐。
配合这类模型，攻击者无需再花精力「说服」代理自己是被授权的 CISO，直接执行扫描与利用即可。

闭源模型或许整体更强，但「能达到目标」的开源去审查模型已经足够。

防御端面临的结构性不对称

作者指出，AI 同样赋能防御侧——AI 驱动的 SAST、异常检测、自动分诊、代码审查都可加速安全工作。但攻防之间存在两层不对称，防御方天然吃亏：

结果不对称：攻击者只要找到一处漏洞即可得手；防御者必须近乎覆盖所有可能入口。AI 帮助防御者扩大覆盖，但攻击面正以更快速度膨胀——每接入一个开源依赖，就带来新的 CVE、鉴权与存储风险。
后果不对称：AI WAF 误杀合法流量，企业直接损失收入；AI SOC 把真实告警判为误报自动关单，可能直接导致入侵。攻击者没有这种负担，失败就重试或换目标——「猴子再按一次按钮」。
组织不对称：攻击端只需关心「pwn or not」的二元结果；防御端发现问题只是「可见性」，真正修复要说服工程 VP 排期、协调团队、跨过组织流程。

代码变便宜，攻击面同步膨胀

文章最后强调，AI 降低编码门槛后，被攻击的目标也在变多：API、端点、基础设施的产出速度大幅提升；同时复杂度同步上升——团队按 LLM 推荐选型栈、缺乏经验的开发者借助 AI 交付生产系统，原本的安全假设被悄然改写。更多语言、更多依赖、更多影子 IT、更多可出错之处，与代理化攻击工具相遇，整体安全水位被进一步拉低。