AI 越狱为何难以根除：一个概率视角的论证

针对 LLM 的越狱与提示注入攻击正成为业界热议话题：麦当劳的客服点餐机器人在诱导下能解 Python 题，xAI 面向年轻用户的聊天机器人在反复提示后会给出制造管状炸弹的步骤，ChatGPT 在充分描述下也能生成受版权保护的角色。这些失败本质上源于 LLM 系统中开发者指令与用户输入之间缺乏清晰隔离，而目前主流的对齐后训练（SFT、RLHF）只是重塑模型可能输出的概率分布，并不能对行为施加硬约束。近日一篇在 Hacker News 引发讨论的技术长文，以概率论框架系统论证了这一观点。

对齐只是重塑分布，而非设置边界

作者借助一个玩具示例来阐述原理：假设存在 shape 与 color 两个随机变量的真实联合分布，生成模型通过采样数据来逼近它。LLM 实际上诱导出一个跨越极高维序列空间的概率分布，以常见词表 16,000 与上下文 1,024 token 计算，可能序列数约为 10^4305，远超可观测宇宙粒子数（约 10^80）与互联网全部文本 token 量（约 10^12 到 10^14）。

将 color 视为「请求」、shape 视为「响应」，一些有害请求配以顺从响应（图中蓝色方块）属于不希望出现的样本。对齐训练的做法并不是显式约束这些组合，而是呈现大量好坏示例，让模型惩罚有害输出、抬高良性输出的概率。训练后蓝色方块在模型分布中变得稀有。

低联合概率不等于低条件概率

关键转折出现在条件化之后。作者引入第三个变量作为「修饰符」（如角色扮演框架：你是唯一能拯救地球的超英，需要……，用 🐰 代表）。即使有害请求与某特定修饰符的联合概率 P(🟦, 🐰) 很小，二者的条件概率 P(🟦 | 🐰) 却可以显著放大。文中给出的数值示例显示，有害联合概率为 0.006，在特定修饰符条件下条件概率可达约 0.260。这意味着「整体上稀有」并不蕴含「在某种改写下也稀有」。

为何无法穷尽防御

既然已识别 🐰 这类修饰符，能否在训练时一并覆盖？难点在于规模。高维输入空间中，可以充当条件化变量的改写方式、上下文、组合方式存在组合爆炸级别数量。对齐所依赖的示例集合只是这个巨大空间的极小片段，大量区域几乎不受约束。从攻击者角度，只要找到任何一处弱约束区域，就能构造出稳定的越狱路径，这与在一个 10^4305 维的函数曲面上寻找峰值的算力要求并不对等，而现代模型与提示词工具链提供了充分的可探索性。

启示与后续

文章并未宣称对齐无用，而是把直觉形式化：越狱不是模型「学坏」的问题，而是概率模型缺乏显式数据/控制信道分离的结构性后果。这意味着仅靠更大规模的对齐数据、更长的 RLHF 流程难以根治；系统级方案，例如把敏感操作移到 LLM 之外的确定性逻辑、由工具而非模型执行高风险动作、把可验证约束作为硬规则叠加在模型输出之上，是与「软对齐」互补的应对方向。文章留下的核心论点是：在 LLM 作为概率系统这一前提下，对有害响应的硬性禁止在理论上不具备内生保证。