Empero AI 发布 Qwythos-9B：1M 上下文开源推理模型

Empero AI 在 Hacker News 发布 Qwythos-9B，这是一款基于 Qwen3.5-9B 基座的全参数推理模型，在超过 5 亿 token 的 Claude Mythos 与 Claude Fable 推理轨迹上做后训练，并由其内部工具「rethink」生成链式思考数据。项目主打三个能力：默认开启 YaRN rope-scaling 的 1,048,576 token 上下文窗口、原生 Qwen3.5 风格函数调用、以及在网络安全、临床药理学等「过度对齐模型常拒绝」领域的无审查回答能力。

模型定位与训练方式

Qwythos-9B 采用全参数微调而非 LoRA，后训练数据全部来自 Empero AI 内部生成的链式思考轨迹。模型卡明确标注「intentionally uncensored」，将网络安全、渗透测试方法学、生物学、药理学与临床医学列为目标场景，认为过度对齐会让模型在这些领域「拒绝、回避或输出免责声明」。开源权重在 Hugging Face 公开，推理部分依赖 Qwen3.5 官方推荐配置。

基准测试表现

按项目方说明，所有数字均使用 lm-evaluation-harness、HF 后端、Qwen3.5 采样参数（temperature=0.6、top_p=0.95、top_k=20）、--limit 100 在同一环境下测得，base 与微调模型对比结果如下：

gsm8k（flexible）：0.670 → 0.860，+0.190
gsm8k（strict）：0.510 → 0.810，+0.300
mmlu（acc）：0.232 → 0.575，+0.343
arc_challenge（acc）：0.470 → 0.490，+0.020
gpqa_diamond（CoT, 0-shot）：0.630 → 0.580，−0.050

MMLU 上 +34.3 的相对提升是项目方主推的卖点，在 57 个学科中均值为 0.575，政冶学达 0.78、大学生物学 0.77、概念物理 0.74。需要注意的是，9B 级别 MMLU 绝对值对 harness、few-shot 数量与 chat-template 处理高度敏感，跨模型横向对比的可比性有限；此处同环境对比仍是同一套基线。GPQA Diamond 反而下降 5 个百分点，表明推理能力提升并不均匀。

原生工具调用与自校正

Qwythos 直接遵循 Qwen3.5 规范的 <tool_call> 块输出，无需额外封装或针对工具的微调。项目方在 7 条 prompt 上做了一组能力演示与高难度事实检索测试，要求模型在 Python 执行器与网页搜索之间自行选择：

数学与计数任务：sin(π/7)·cos(π/11) 保留 10 位小数得 0.4163083990；10⁵ 以内素数计数 9592，均通过 Python 完成。
版本与漏洞事实：CPython 3 最新稳定版 3.14.6（2026 年 6 月）、Hashcat 对 Kerberos TGS-REP 的模式 -m 13100、PrintNightmare 的 CVE-2021-34527 等 4 条「闭卷极易出错」的事实题，模型均调用网页搜索并给出可追溯来源。
临床药理与生化：毒扁豆碱不适用于有机磷中毒的判断、DPP-4 在 GLP-1 / 司美格鲁肽上的 Ala⁸–Glu⁹ 切割位点与 Aib 修饰，同样由搜索结果整合后给出。

7/7 全部正确，但样本量极小，方法学上更接近演示而非系统评估，结论应作保留看待。项目方表示可用于检索增强的智能体场景，由模型自身验证事实而非凭空生成。

1,048,576 token 上下文配置

模型 config.json 内置了 Qwen 官方 1M 上下文方案，YaRN factor 4.0、原生长度 262,144、MROPE 交错、theta 10,000,000，加载时自动生效，无需额外参数。项目方声称在约 137k token 上做了内部 smoke test 验证，推理阶段则依赖 vLLM / SGLang 的官方部署方案。该 1M 窗口可覆盖数十万行级别的代码仓库，支持跨文件重构、缺陷定位与架构审阅，也适配长链路智能体的轨迹长度。

局限与争议

模型卡多次强调「无审查」，并把网络安全与红队方法学列入目标场景，开发者与下游使用者需自行评估合规与滥用风险。原始公告中提及的「Qwen3.5-9B」在阿里通义千问官方模型族中并无对应命名，实际可能指 Qwen3-9B 或其他变体，读者在复现基准时需注意基座对齐。GPQA Diamond 下滑与仅 7 条 prompt 的工具测试也表明，宣称的全面优势仍有边界。

模型定位与训练方式

基准测试表现

gsm8k（flexible）：0.670 → 0.860，+0.190

gsm8k（strict）：0.510 → 0.810，+0.300

mmlu（acc）：0.232 → 0.575，+0.343

arc_challenge（acc）：0.470 → 0.490，+0.020

gpqa_diamond（CoT, 0-shot）：0.630 → 0.580，−0.050

原生工具调用与自校正

数学与计数任务：sin(π/7)·cos(π/11) 保留 10 位小数得 0.4163083990；10⁵ 以内素数计数 9592，均通过 Python 完成。

版本与漏洞事实：CPython 3 最新稳定版 3.14.6（2026 年 6 月）、Hashcat 对 Kerberos TGS-REP 的模式 -m 13100、PrintNightmare 的 CVE-2021-34527 等 4 条「闭卷极易出错」的事实题，模型均调用网页搜索并给出可追溯来源。

临床药理与生化：毒扁豆碱不适用于有机磷中毒的判断、DPP-4 在 GLP-1 / 司美格鲁肽上的 Ala⁸–Glu⁹ 切割位点与 Aib 修饰，同样由搜索结果整合后给出。

1,048,576 token 上下文配置

局限与争议