Empero AI 基于 Qwen3.5-9B 全参数微调 Qwythos-9B,主打 1M 上下文、原生工具调用与无审…
Empero AI 在 Hacker News 发布 Qwythos-9B,这是一款基于 Qwen3.5-9B 基座的全参数推理模型,在超过 5 亿 token 的 Claude Mythos 与 Claude Fable 推理轨迹上做后训练,并由其内部工具「rethink」生成链式思考数据。项目主打三个能力:默认开启 YaRN rope-scaling 的 1,048,576 token 上下文窗口、原生 Qwen3.5 风格函数调用、以及在网络安全、临床药理学等「过度对齐模型常拒绝」领域的无审查回答能力。
Qwythos-9B 采用全参数微调而非 LoRA,后训练数据全部来自 Empero AI 内部生成的链式思考轨迹。模型卡明确标注「intentionally uncensored」,将网络安全、渗透测试方法学、生物学、药理学与临床医学列为目标场景,认为过度对齐会让模型在这些领域「拒绝、回避或输出免责声明」。开源权重在 Hugging Face 公开,推理部分依赖 Qwen3.5 官方推荐配置。
按项目方说明,所有数字均使用 lm-evaluation-harness、HF 后端、Qwen3.5 采样参数(temperature=0.6、top_p=0.95、top_k=20)、--limit 100 在同一环境下测得,base 与微调模型对比结果如下:
MMLU 上 +34.3 的相对提升是项目方主推的卖点,在 57 个学科中均值为 0.575,政冶学达 0.78、大学生物学 0.77、概念物理 0.74。需要注意的是,9B 级别 MMLU 绝对值对 harness、few-shot 数量与 chat-template 处理高度敏感,跨模型横向对比的可比性有限;此处同环境对比仍是同一套基线。GPQA Diamond 反而下降 5 个百分点,表明推理能力提升并不均匀。
Qwythos 直接遵循 Qwen3.5 规范的 <tool_call> 块输出,无需额外封装或针对工具的微调。项目方在 7 条 prompt 上做了一组能力演示与高难度事实检索测试,要求模型在 Python 执行器与网页搜索之间自行选择:
7/7 全部正确,但样本量极小,方法学上更接近演示而非系统评估,结论应作保留看待。项目方表示可用于检索增强的智能体场景,由模型自身验证事实而非凭空生成。
模型 config.json 内置了 Qwen 官方 1M 上下文方案,YaRN factor 4.0、原生长度 262,144、MROPE 交错、theta 10,000,000,加载时自动生效,无需额外参数。项目方声称在约 137k token 上做了内部 smoke test 验证,推理阶段则依赖 vLLM / SGLang 的官方部署方案。该 1M 窗口可覆盖数十万行级别的代码仓库,支持跨文件重构、缺陷定位与架构审阅,也适配长链路智能体的轨迹长度。
模型卡多次强调「无审查」,并把网络安全与红队方法学列入目标场景,开发者与下游使用者需自行评估合规与滥用风险。原始公告中提及的「Qwen3.5-9B」在阿里通义千问官方模型族中并无对应命名,实际可能指 Qwen3-9B 或其他变体,读者在复现基准时需注意基座对齐。GPQA Diamond 下滑与仅 7 条 prompt 的工具测试也表明,宣称的全面优势仍有边界。