桃子桃子快讯
返回首页
研究论文

腾讯混元提出 GEAR:联合训练 VQ tokenizer 与自回归生成器

腾讯混元团队发布论文 GEAR,通过双读出机制让 AR 模型引导 VQ tokenizer 端到端训练,使 ImageN…

2026.07.04 · 周六3 分钟阅读

腾讯混元团队近期公开论文 GEAR(Guided End-to-End AutoRegression),针对视觉生成模型中「分阶段训练 tokenizer,再训练自回归生成器」造成的解耦问题,提出让 VQ tokenizer 与 AR 生成器联合、端到端训练的新方案。在 ImageNet 256 上,相对强基线 LlamaGen-REPA,GEAR 的 gFID 收敛速度最高提升约 10 倍,并在多个量化器与文生图场景中保持通用性。

现有训练范式痛点

传统视觉生成模型通常分为两步:先训练 VQ tokenizer 重建图像并冻结,再在离散索引或连续潜变量上训练 AR 生成器。这种解耦让 tokenizer 无法感知「生成器究竟擅长建模什么样的索引分布」。在 ImageNet 类条件生成与文生图场景中,这一限制会拖慢收敛、削弱特征表达。

双读出桥接机制

GEAR 的核心难题在于 VQ 索引对 AR 模型不可微,梯度无法回传至 tokenizer,且直通估计器(straight-through estimator)会崩溃。为此,论文提出双读出设计:

  • 硬分支:one-hot 索引用于 AR 的 next-token 预测训练;
  • 软分支:可微的 soft 分配承载表示对齐损失(representation alignment),该梯度只回传至 tokenizer。

由此,自回归模型反向引导 tokenizer,使其产生的索引分布更易被 AR 预测,对齐负担从 tokenizer 转移到 AR 自身。

关键实验结果

GEAR 的主要指标表现包括:

  • ImageNet gFID 收敛速度相对 LlamaGen-REPA 最高约 10 倍提升;
  • 在 GPIC 文生图场景中,使用微调后的 tokenizer 训练新 AR 模型,next-token prediction 损失达到基线水平的速度约为基线的 2.5 倍,REPA 损失达到基线水平的速度约为 11.1 倍;
  • 特征层面,tokenizer 自身特征的 DINOv2 相似度下降、熵更低,而 AR 的逐 patch 特征则更贴近 DINOv2,与扩散侧 REPA(REPA-E / VA-VAE)的方向相反。

适用范围与资源

该方法在多种量化器下均验证有效,包括 VQVAE、LFQ 与 IBQ,并可推广至类条件 ImageNet 与文生图任务。论文中提到的工程实践为「冻结已训练好的 tokenizer 即可直接接入标准 AR 生成流程」。相关资源已发布:

  • 论文:arXiv:2606.32039;
  • 仓库:GitHub 上 Tencent-Hunyuan/GEAR;
  • 模型与集合:HuggingFace 上 BinLin203/gear-tokenizer。

总体而言,GEAR 提供了一条「让生成器反向塑造 tokenizer」的可行路径,对 AR 生图路线的训练效率与特征质量均有可观改进。

信源