Claude Fable 5 再遭越狱：20 小时破防，安全神话承压

据科技媒体 X 平台与微信公众号「新智元」综合报道，黑客 Vitto Rivabella 公开宣布已再次越狱 Anthropic 的 Claude Fable 5 模型。他耗时约 20 小时，绕过了 Anthropic 在 Fable 5 恢复访问时部署的「加强版」安全分类器。这是该模型自上线以来第二次防线失守。Anthropic 官方已确认，Fable 将于 7 月 7 日后暂时从订阅计划移除，待容量允许后再恢复为标准订阅内容。

二次越狱：20 小时撬开新防线

6 月 9 日 Fable 5 首次发布时，Anthropic 曾宣称「经过 1000 小时外部压力测试，没有任何通用越狱方法」。但上线不到 72 小时，知名越狱研究者 Pliny the Liberator 就首次攻破防线，利用字符替换与意图稀释等手法获取了违禁化学品制作步骤等技术信息。Anthropic 当时强调，亚马逊研究人员曾发现一种绕过 Fable 5 安全防护的方法，新分类器正针对该漏洞做了加强。

7 月 1 日 Fable 5 带着新分类器回归，Anthropic 同步在 HackerOne 平台启动「Cyber Jailbreak」漏洞披露项目，邀请全球安全研究者提交新越狱方法，但该项目不支付任何报酬。数日之内，Vitto Rivabella 即宣告再次破防。

防御架构：三层嵌套，90% 拦截率

Rivabella 复盘称，Fable 5 的防御包含至少三层嵌套：

入场检查：识别并拦截敏感请求
实时生成的「断路器」机制
内化在思维链（CoT）中的「大脑防火墙」

其观察显示，模型拦截率高达 90%，分类器不认关键词而是识别意图，并支持跨语言识别。意大利人工智能研究院的独立测试印证了类似结论：静态攻击套路被「几乎完全中和」，能撬开缝隙的只有肯花数十小时死磕的研究者。

越狱手法：老套路组合，胜在耐心

Rivabella 最终通过组合手法勉强绕过层层防御：

字符混淆：把敏感词中的英文字母替换为西里尔字母或 Unicode 异形字符
学术化包装：把敏感问题包装成学术讨论
意图稀释：利用 Fable 5 巨大的上下文窗口，将恶意意图分散到数十轮温和对话中
拆解重组与随机性扰动

这些手法本身并非新招，红队圈已公开讨论多年。真正困难的是在会实时反制的系统上一次又一次地试探，直到刚好绕过去。

小语种：所有大模型的「系统性欠账」

Rivabella 特别指出，所有防线中持续薄弱的是桑塔利语、阿姆哈拉语等晦涩小语种。但这一弱点并非 Fable 5 独有，而是整个大模型行业的共性问题——安全训练语料以英语和主流语种为主，小语种护栏天然薄弱。布朗大学、斯坦陵布什大学的多项公开研究均印证过这一点。

越狱产出：仅是「谷歌可搜」的边角料

尽管耗时 20 小时，Rivabella 最终提取的内容相当有限：一些错误信息、零星的有害内容、片段化化学知识、轻度漏洞信息。他本人直言，「这些东西，谷歌搜得又快又全，读文献还更深入」，并承认目前无法将这套越狱稳定复用到真实长任务中。

Anthropic 在重新上线的公告中将所有已知越狱定性为「minor」，认为它们仅触及模型故意放宽的安全边际，未触碰生物武器或复杂网络攻击等核心红线。

完美封印本身是悖论

两次越狱呈现出不同侧面的失败：第一次 Anthropic 输在「傲慢」，12 万字系统提示词被公开发布在 GitHub；第二次输在「盲点」，堆叠算力与数据仍难堵住恶意出口。文章评论称，AI 安全界面临的深层困境在于：人类造出了能翻译所有语言的机器，却依然无法完全「翻译」人类内心的恶意。