腾讯混元提出 GEAR：联合训练 VQ tokenizer 与自回归生成器

腾讯混元团队近期公开论文 GEAR（Guided End-to-End AutoRegression），针对视觉生成模型中「分阶段训练 tokenizer，再训练自回归生成器」造成的解耦问题，提出让 VQ tokenizer 与 AR 生成器联合、端到端训练的新方案。在 ImageNet 256 上，相对强基线 LlamaGen-REPA，GEAR 的 gFID 收敛速度最高提升约 10 倍，并在多个量化器与文生图场景中保持通用性。

现有训练范式痛点

传统视觉生成模型通常分为两步：先训练 VQ tokenizer 重建图像并冻结，再在离散索引或连续潜变量上训练 AR 生成器。这种解耦让 tokenizer 无法感知「生成器究竟擅长建模什么样的索引分布」。在 ImageNet 类条件生成与文生图场景中，这一限制会拖慢收敛、削弱特征表达。

双读出桥接机制

GEAR 的核心难题在于 VQ 索引对 AR 模型不可微，梯度无法回传至 tokenizer，且直通估计器（straight-through estimator）会崩溃。为此，论文提出双读出设计：

硬分支：one-hot 索引用于 AR 的 next-token 预测训练；
软分支：可微的 soft 分配承载表示对齐损失（representation alignment），该梯度只回传至 tokenizer。

由此，自回归模型反向引导 tokenizer，使其产生的索引分布更易被 AR 预测，对齐负担从 tokenizer 转移到 AR 自身。

关键实验结果

GEAR 的主要指标表现包括：

ImageNet gFID 收敛速度相对 LlamaGen-REPA 最高约 10 倍提升；
在 GPIC 文生图场景中，使用微调后的 tokenizer 训练新 AR 模型，next-token prediction 损失达到基线水平的速度约为基线的 2.5 倍，REPA 损失达到基线水平的速度约为 11.1 倍；
特征层面，tokenizer 自身特征的 DINOv2 相似度下降、熵更低，而 AR 的逐 patch 特征则更贴近 DINOv2，与扩散侧 REPA（REPA-E / VA-VAE）的方向相反。

适用范围与资源

该方法在多种量化器下均验证有效，包括 VQVAE、LFQ 与 IBQ，并可推广至类条件 ImageNet 与文生图任务。论文中提到的工程实践为「冻结已训练好的 tokenizer 即可直接接入标准 AR 生成流程」。相关资源已发布：

论文：arXiv:2606.32039；
仓库：GitHub 上 Tencent-Hunyuan/GEAR；
模型与集合：HuggingFace 上 BinLin203/gear-tokenizer。

总体而言，GEAR 提供了一条「让生成器反向塑造 tokenizer」的可行路径，对 AR 生图路线的训练效率与特征质量均有可观改进。