桃子桃子 AI 快讯
返回首页
研究论文

Qwen 团队提出 HydraHead:在注意力头维度融合全注意力与线性注意力

Qwen 团队提出沿 head 轴混合 FA 与 LA 的 HydraHead 架构,长上下文显著优于现有混合方案,仅用…

2026.06.30 · 周二3 分钟阅读评分 65
评分细项加权总分 65
重要性
62
新颖性
73
影响面
58
可信度
60
实质性
72

通义千问(Qwen)团队提出新架构 HydraHead,不再按层而是按「注意力头(head)」维度混合全注意力(FA)与线性注意力(LA),在长上下文任务上显著优于现有混合方案;仅用 150 亿 token 训练,即可在 512K 上下文长度下相对基线提升超过 69%,性能逼近原生 256K 上下文的同规模领先模型 Qwen3.5。

背景:层级混合方案的局限

标准自注意力的二次方复杂度是长上下文处理的主要瓶颈,推动研究者探索混合注意力设计。目前多数开源混合模型采用「层级混合」策略:在某些层使用线性注意力(LA),在另一些层保留全注意力(FA)。然而先前工作指出,FA 与 LA 之间存在固有整合难度,说明注意力混合的设计空间尚未被充分挖掘。

核心洞察:头级功能异质性

为系统探索这一空间,团队对模型进行可解释性分析,观察到两层现象:

  • 同一模型不同层之间呈现「块级功能相似」,即相邻层的职责接近。
  • 但同一层内部的不同注意力头,尽管共享输入特征,却表现出明显不同的功能特化。

这一发现意味着「头」这一更细的维度才是自然且合理的混合粒度,为绕过 FA 与 LA 难整合的问题提供了新的设计入口。

HydraHead 的两项关键创新

基于上述洞察,团队设计出 HydraHead 架构,沿 head 轴将 FA 与 LA 异质信号融合,主要包含两项模块:

  • 可解释性驱动的头选择策略:通过分析识别对检索任务关键的注意力头,仅对这些头保留 FA,其余头改用 LA,从而大幅压缩全注意力的实际计算量。
  • 尺度归一化融合模块:用于对齐 FA 头与 LA 头的输出分布,弥合两类信号融合后的尺度与统计量差异。

团队同时设计了三阶段迁移流程,结合参数复用与蒸馏,在统一训练设置下获得高性能混合模型。

实验结果

在统一训练配置下,HydraHead 取得以下关键数据:

  • 长上下文任务上整体优于其他混合设计,同时保持较强的通用推理能力。
  • 仅用 15B token 训练,512K 上下文下相对基线提升超过 69%,逼近原生支持 256K 上下文的同规模领先模型 Qwen3.5。
  • 以 7:1 的 LA:FA 头数比,通过可解释性驱动的头选择,其长上下文性能可匹配 3:1 层级混合方案——也就是说,在同等长上下文效果下,全注意力头数量被压缩至后者的约四分之一。

意义与待验证之处

HydraHead 表明「头级混合」是注意力设计中一条被低估但具备显著可扩展性的可行路径,尤其适合追求极长上下文与推理效率兼顾的场景。需要注意的是,目前摘要披露的实验规模有限(仅 15B token 训练),完整论文、训练代码与更大规模的验证结果尚未公开,其在更长训练与更大模型上的稳定性、通用性仍待进一步确认。

信源