Anthropic 宣布 Claude Fable 5 明日全球重新上线

Anthropic 通过官方 X 账号宣布，旗下模型 Claude Fable 5 将于明日全球重新上线。该公司称，在与美国政府进行「一系列富有成效的对话」后，决定在现有版本基础上替换并升级分类器，以更精准地拦截涉及网络安全的请求，同时尽量减少对正常用户的影响。

升级后的安全策略与回退机制

根据官方说明，重新上线的 Claude Fable 5 配备了一套「全新的分类器」，目标是识别并阻止更多与网络安全相关的任务，从而降低模型被用于攻击性用途的风险。短期内，部分常规任务——例如代码编写与调试——将回退至 Opus 4.8 执行，以避免新版分类器误伤正常请求。Anthropic 表示，将在接下来数周持续迭代分类器，降低误报率，并更好地区分真实滥用行为与合法需求。

Glasswing 行业框架：联合多家厂商应对越狱

Anthropic 还透露，已与 Amazon、Microsoft、Google 等「Glasswing 伙伴」开始起草一套共识框架，用于评估 AI 越狱（jailbreak）的严重程度，并明确各模型厂商在不同等级事件下应采取的响应措施。该公司明确邀请其他行业伙伴与模型厂商加入这一协作，以推动形成统一的行业级应对规范。

框架目标：为越狱事件建立统一的严重性分级。
覆盖范围：明确厂商在不同等级下的响应义务。
合作机制：跨厂商共享评估方法与最佳实践。

与美国政府的合作升级

公告最后一部分，Anthropic 宣布将进一步深化与美国政府在模型测试与安全保障方面的合作。具体内容包括：

在模型正式发布前向政府提供访问权限，用于评估其安全性。
共享关于越狱手法与模型滥用案例的信息。
设立专门资源用于联合研究。

Anthropic 借此向用户致谢，并感谢政府、产业界及研究社区的合作伙伴在 Fable 5 重新上线过程中的协助。完整说明详见其官方博客。