桃子桃子 AI 快讯
返回首页
行业动态

AI 代理重塑安全攻防:攻击面扩大,防御者处境更难了

一篇分析文章指出,大模型工具调用能力趋于可靠,叠加开源去审查模型与 AI 生成代码,使攻击者获得前所未有的自动化能力,而…

2026.06.28 · 周日4 分钟阅读评分 40
评分细项加权总分 40
重要性
38
新颖性
45
影响面
40
可信度
42
实质性
35

一篇发表于 Hacker News 的分析文章认为,过去半年大模型在工具调用与结构化输出上的可靠性显著提升,使自主式攻击代理从概念走向现实;同时,开源去审查模型与 AI 生成代码的普及,正在让攻防两端的不对称进一步向攻击者倾斜。

工具调用已不再是瓶颈

作者坦言,早期对 Anthropic 关于国家级攻击者使用 Claude 的声明持怀疑态度——彼时连让模型正确触发函数调用都要反复调试,看不到真正的攻击价值。但近半年情况发生了变化:

  • 大模型工具调用基本成为「已解决问题」,输出结构稳定可靠。
  • 同一能力正被下放到可在本地运行的小模型。
  • 攻击代理可以可靠地编辑原始 HTTP 请求、跟踪 source-to-sink 链路、读取响应、存储记忆并决策下一步动作。

「猴子按按钮」的思想实验

文章用一个类比说明 AI 在攻击中的角色:十年前给一只猴子一个按钮,每次按下就运行 SQLmap,确实能拿下不少有漏洞的目标;但遇到自定义鉴权逻辑、多角色接口或重 JavaScript 站点时,传统工具就会失效。

换上 AI harness(OpenCode、Codex 等)后:

  • 模型读取目标响应后动态调整策略,切换工具。
  • SQLmap 失效时改用 curl 创建不同角色账号,再继续探测。
  • AI 不替代工具,而是按需编排工具链。

虽然代理本身具有非确定性——同一目标每次结果可能不同——但「有命中」仍远好于「100% 漏报」。按钮能做的事上限被显著抬高。

护栏是功能,不是保证

闭源模型(Claude、GPT 等)确实会拒绝恶意请求,越狱与封堵持续拉锯。但这只是故事的一半:

  • DeepSeek、GLM 等能力足够的开源权重模型可自托管。
  • Heretic 等工具可以永久剥离模型的安全与审查对齐。
  • 配合这类模型,攻击者无需再花精力「说服」代理自己是被授权的 CISO,直接执行扫描与利用即可。

闭源模型或许整体更强,但「能达到目标」的开源去审查模型已经足够。

防御端面临的结构性不对称

作者指出,AI 同样赋能防御侧——AI 驱动的 SAST、异常检测、自动分诊、代码审查都可加速安全工作。但攻防之间存在两层不对称,防御方天然吃亏:

  • 结果不对称:攻击者只要找到一处漏洞即可得手;防御者必须近乎覆盖所有可能入口。AI 帮助防御者扩大覆盖,但攻击面正以更快速度膨胀——每接入一个开源依赖,就带来新的 CVE、鉴权与存储风险。
  • 后果不对称:AI WAF 误杀合法流量,企业直接损失收入;AI SOC 把真实告警判为误报自动关单,可能直接导致入侵。攻击者没有这种负担,失败就重试或换目标——「猴子再按一次按钮」。
  • 组织不对称:攻击端只需关心「pwn or not」的二元结果;防御端发现问题只是「可见性」,真正修复要说服工程 VP 排期、协调团队、跨过组织流程。

代码变便宜,攻击面同步膨胀

文章最后强调,AI 降低编码门槛后,被攻击的目标也在变多:API、端点、基础设施的产出速度大幅提升;同时复杂度同步上升——团队按 LLM 推荐选型栈、缺乏经验的开发者借助 AI 交付生产系统,原本的安全假设被悄然改写。更多语言、更多依赖、更多影子 IT、更多可出错之处,与代理化攻击工具相遇,整体安全水位被进一步拉低。

信源