研究论文
Qwen 团队提出 HydraHead:在注意力头维度融合全注意力与线性注意力
Qwen 团队提出沿 head 轴混合 FA 与 LA 的 HydraHead 架构,长上下文显著优于现有混合方案,仅用…
2026.06.30 · 周二约 3 分钟阅读评分 65
评分细项加权总分 65
- 重要性
- 62
- 新颖性
- 73
- 影响面
- 58
- 可信度
- 60
- 实质性
- 72
通义千问(Qwen)团队提出新架构 HydraHead,不再按层而是按「注意力头(head)」维度混合全注意力(FA)与线性注意力(LA),在长上下文任务上显著优于现有混合方案;仅用 150 亿 token 训练,即可在 512K 上下文长度下相对基线提升超过 69%,性能逼近原生 256K 上下文的同规模领先模型 Qwen3.5。
背景:层级混合方案的局限
标准自注意力的二次方复杂度是长上下文处理的主要瓶颈,推动研究者探索混合注意力设计。目前多数开源混合模型采用「层级混合」策略:在某些层使用线性注意力(LA),在另一些层保留全注意力(FA)。然而先前工作指出,FA 与 LA 之间存在固有整合难度,说明注意力混合的设计空间尚未被充分挖掘。
核心洞察:头级功能异质性
为系统探索这一空间,团队对模型进行可解释性分析,观察到两层现象:
- 同一模型不同层之间呈现「块级功能相似」,即相邻层的职责接近。
- 但同一层内部的不同注意力头,尽管共享输入特征,却表现出明显不同的功能特化。
这一发现意味着「头」这一更细的维度才是自然且合理的混合粒度,为绕过 FA 与 LA 难整合的问题提供了新的设计入口。
HydraHead 的两项关键创新
基于上述洞察,团队设计出 HydraHead 架构,沿 head 轴将 FA 与 LA 异质信号融合,主要包含两项模块:
- 可解释性驱动的头选择策略:通过分析识别对检索任务关键的注意力头,仅对这些头保留 FA,其余头改用 LA,从而大幅压缩全注意力的实际计算量。
- 尺度归一化融合模块:用于对齐 FA 头与 LA 头的输出分布,弥合两类信号融合后的尺度与统计量差异。
团队同时设计了三阶段迁移流程,结合参数复用与蒸馏,在统一训练设置下获得高性能混合模型。
实验结果
在统一训练配置下,HydraHead 取得以下关键数据:
- 长上下文任务上整体优于其他混合设计,同时保持较强的通用推理能力。
- 仅用 15B token 训练,512K 上下文下相对基线提升超过 69%,逼近原生支持 256K 上下文的同规模领先模型 Qwen3.5。
- 以 7:1 的 LA:FA 头数比,通过可解释性驱动的头选择,其长上下文性能可匹配 3:1 层级混合方案——也就是说,在同等长上下文效果下,全注意力头数量被压缩至后者的约四分之一。
意义与待验证之处
HydraHead 表明「头级混合」是注意力设计中一条被低估但具备显著可扩展性的可行路径,尤其适合追求极长上下文与推理效率兼顾的场景。需要注意的是,目前摘要披露的实验规模有限(仅 15B token 训练),完整论文、训练代码与更大规模的验证结果尚未公开,其在更长训练与更大模型上的稳定性、通用性仍待进一步确认。
