AI 代理重塑安全攻防:攻击面扩大,防御者处境更难了
一篇分析文章指出,大模型工具调用能力趋于可靠,叠加开源去审查模型与 AI 生成代码,使攻击者获得前所未有的自动化能力,而…
- 重要性
- 38
- 新颖性
- 45
- 影响面
- 40
- 可信度
- 42
- 实质性
- 35
一篇发表于 Hacker News 的分析文章认为,过去半年大模型在工具调用与结构化输出上的可靠性显著提升,使自主式攻击代理从概念走向现实;同时,开源去审查模型与 AI 生成代码的普及,正在让攻防两端的不对称进一步向攻击者倾斜。
工具调用已不再是瓶颈
作者坦言,早期对 Anthropic 关于国家级攻击者使用 Claude 的声明持怀疑态度——彼时连让模型正确触发函数调用都要反复调试,看不到真正的攻击价值。但近半年情况发生了变化:
- 大模型工具调用基本成为「已解决问题」,输出结构稳定可靠。
- 同一能力正被下放到可在本地运行的小模型。
- 攻击代理可以可靠地编辑原始 HTTP 请求、跟踪 source-to-sink 链路、读取响应、存储记忆并决策下一步动作。
「猴子按按钮」的思想实验
文章用一个类比说明 AI 在攻击中的角色:十年前给一只猴子一个按钮,每次按下就运行 SQLmap,确实能拿下不少有漏洞的目标;但遇到自定义鉴权逻辑、多角色接口或重 JavaScript 站点时,传统工具就会失效。
换上 AI harness(OpenCode、Codex 等)后:
- 模型读取目标响应后动态调整策略,切换工具。
- SQLmap 失效时改用 curl 创建不同角色账号,再继续探测。
- AI 不替代工具,而是按需编排工具链。
虽然代理本身具有非确定性——同一目标每次结果可能不同——但「有命中」仍远好于「100% 漏报」。按钮能做的事上限被显著抬高。
护栏是功能,不是保证
闭源模型(Claude、GPT 等)确实会拒绝恶意请求,越狱与封堵持续拉锯。但这只是故事的一半:
- DeepSeek、GLM 等能力足够的开源权重模型可自托管。
- Heretic 等工具可以永久剥离模型的安全与审查对齐。
- 配合这类模型,攻击者无需再花精力「说服」代理自己是被授权的 CISO,直接执行扫描与利用即可。
闭源模型或许整体更强,但「能达到目标」的开源去审查模型已经足够。
防御端面临的结构性不对称
作者指出,AI 同样赋能防御侧——AI 驱动的 SAST、异常检测、自动分诊、代码审查都可加速安全工作。但攻防之间存在两层不对称,防御方天然吃亏:
- 结果不对称:攻击者只要找到一处漏洞即可得手;防御者必须近乎覆盖所有可能入口。AI 帮助防御者扩大覆盖,但攻击面正以更快速度膨胀——每接入一个开源依赖,就带来新的 CVE、鉴权与存储风险。
- 后果不对称:AI WAF 误杀合法流量,企业直接损失收入;AI SOC 把真实告警判为误报自动关单,可能直接导致入侵。攻击者没有这种负担,失败就重试或换目标——「猴子再按一次按钮」。
- 组织不对称:攻击端只需关心「pwn or not」的二元结果;防御端发现问题只是「可见性」,真正修复要说服工程 VP 排期、协调团队、跨过组织流程。
代码变便宜,攻击面同步膨胀
文章最后强调,AI 降低编码门槛后,被攻击的目标也在变多:API、端点、基础设施的产出速度大幅提升;同时复杂度同步上升——团队按 LLM 推荐选型栈、缺乏经验的开发者借助 AI 交付生产系统,原本的安全假设被悄然改写。更多语言、更多依赖、更多影子 IT、更多可出错之处,与代理化攻击工具相遇,整体安全水位被进一步拉低。
