桃子桃子 AI 快讯
返回首页
研究论文

HFA 推出 DiScoFormer:单一 Transformer 同时估计分布密度与分数

Hugging Face 博客发布 DiScoFormer,用一个 Transformer 在一次前向传播中同时估计概率…

2026.06.30 · 周二4 分钟阅读评分 65
评分细项加权总分 65
重要性
58
新颖性
72
影响面
52
可信度
82
实质性
78

Hugging Face 博客近日发表了一篇技术报告,介绍了一种名为 DiScoFormer(Density and Score Transformer)的新型模型。该模型用一个 Transformer 即可在单次前向传播中同时估计给定数据样本背后概率分布的密度(density)与分数(score),无需针对特定分布重新训练。这项工作为高维密度与分数估计这一经典难题提供了新的通用解法。

问题背景:密度与分数为何重要

许多机器学习与科学计算任务都依赖于同一个基础问题:从有限的数据点出发,还原其背后的概率分布,弄清楚哪些取值更常见、哪些更罕见。描述这一分布需要两个量:分布的密度(类似平滑后的直方图)与分数(对数密度的梯度,指向密度上升最快的方向)。扩散模型(如 Stable Diffusion、DALL-E 等图像生成器的核心技术)的采样过程,正是从噪声出发、沿着分数场逐步走向真实数据;贝叶斯采样与等离子体建模等粒子模拟场景同样依赖分数。

然而,当维度升高时,传统方法面临两难:核密度估计(KDE)虽然通用、无需训练,但精度随维度上升急剧下降;基于神经网络分数匹配的方法在高维下保持准确,却只能针对单一分布学习,换数据即需从头训练。

DiScoFormer 的架构与训练思路

DiScoFormer 通过堆叠的 Transformer 模块,将整个数据样本映射为对应分布的密度与分数场。其核心设计包括三点:

  • 交叉注意力机制:模型可在任意查询点评估密度与分数,而非局限于已知数据点位置。
  • 双输出头共享骨干网络:一个头预测密度,另一个头预测分数。两者在数学上存在梯度关系(分数即对数密度的梯度),这一耦合天然提供了「无标签一致性损失」。
  • 推理时自适应:固定上下文数据后,对一致性损失做几步梯度更新,模型可即时适配分布外输入,无需真实密度或分数作为监督。

文章还从理论上解释了 Transformer 与 KDE 的联系:单个注意力头的权重近似数据上的高斯核,因此一层交叉注意力即可重现 KDE 的密度与分数估计;在此基础上,模型进一步学习多尺度自适应核,将 KDE 作为特例包含其中并加以扩展。

训练数据采用高斯混合模型(GMM)。原因有二:足够多分量时 GMM 可逼近任意光滑分布;同时 GMM 具有闭式密度与分数表达式,每个 batch 都能提供精确监督目标,从而获得近乎无限的训练样本。

实验性能:高维场景显著领先

DiScoFormer 在密度与分数估计上全面优于 KDE,且优势随维度增加而扩大:

  • 100 维条件下,相比手工调优的最佳 KDE,DiScoFormer 将分数误差降低约 6.5 倍,将密度误差降低超过 37 倍
  • 样本量增大时 DiScoFormer 性能持续提升,而 KDE 已开始遭遇内存瓶颈。
  • 在训练时未见过的多模态混合分布、以及拉普拉斯、学生 t 等非高斯形状上,DiScoFormer 仍能保持准确,体现出良好的分布外泛化能力。
  • KDE 的主要剩余优势是速度,尤其在数据集较小时更明显。

意义与展望

分数估计是生成建模、贝叶斯推断与科学计算的共同基础需求。一个预训练、即插即用、在高维下依然准确且无需逐任务重训的分数估计器,有望在多个领域同时降低计算与工程成本。Hugging Face 在博客中表示,该研究最具前景的方向正是这种「跨任务复用」的潜力——一个模型,覆盖所有需要分数与密度的场景。

更多方法细节与实验设置可参阅其 arXiv 技术报告(编号 2511.05924)。

信源