Qwen 团队提出 HydraHead：在注意力头维度融合全注意力与线性注意力

通义千问（Qwen）团队提出新架构 HydraHead，不再按层而是按「注意力头（head）」维度混合全注意力（FA）与线性注意力（LA），在长上下文任务上显著优于现有混合方案；仅用 150 亿 token 训练，即可在 512K 上下文长度下相对基线提升超过 69%，性能逼近原生 256K 上下文的同规模领先模型 Qwen3.5。

背景：层级混合方案的局限

标准自注意力的二次方复杂度是长上下文处理的主要瓶颈，推动研究者探索混合注意力设计。目前多数开源混合模型采用「层级混合」策略：在某些层使用线性注意力（LA），在另一些层保留全注意力（FA）。然而先前工作指出，FA 与 LA 之间存在固有整合难度，说明注意力混合的设计空间尚未被充分挖掘。

核心洞察：头级功能异质性

为系统探索这一空间，团队对模型进行可解释性分析，观察到两层现象：

同一模型不同层之间呈现「块级功能相似」，即相邻层的职责接近。
但同一层内部的不同注意力头，尽管共享输入特征，却表现出明显不同的功能特化。

这一发现意味着「头」这一更细的维度才是自然且合理的混合粒度，为绕过 FA 与 LA 难整合的问题提供了新的设计入口。

HydraHead 的两项关键创新

基于上述洞察，团队设计出 HydraHead 架构，沿 head 轴将 FA 与 LA 异质信号融合，主要包含两项模块：

可解释性驱动的头选择策略：通过分析识别对检索任务关键的注意力头，仅对这些头保留 FA，其余头改用 LA，从而大幅压缩全注意力的实际计算量。
尺度归一化融合模块：用于对齐 FA 头与 LA 头的输出分布，弥合两类信号融合后的尺度与统计量差异。

团队同时设计了三阶段迁移流程，结合参数复用与蒸馏，在统一训练设置下获得高性能混合模型。

实验结果

在统一训练配置下，HydraHead 取得以下关键数据：

长上下文任务上整体优于其他混合设计，同时保持较强的通用推理能力。
仅用 15B token 训练，512K 上下文下相对基线提升超过 69%，逼近原生支持 256K 上下文的同规模领先模型 Qwen3.5。
以 7:1 的 LA:FA 头数比，通过可解释性驱动的头选择，其长上下文性能可匹配 3:1 层级混合方案——也就是说，在同等长上下文效果下，全注意力头数量被压缩至后者的约四分之一。

意义与待验证之处

HydraHead 表明「头级混合」是注意力设计中一条被低估但具备显著可扩展性的可行路径，尤其适合追求极长上下文与推理效率兼顾的场景。需要注意的是，目前摘要披露的实验规模有限（仅 15B token 训练），完整论文、训练代码与更大规模的验证结果尚未公开，其在更长训练与更大模型上的稳定性、通用性仍待进一步确认。