Google Research 开源 TabFM:表格数据零样本基础模型
Google Research 开源 TabFM,支持分类与回归的零样本推理,在 TabArena 51 个数据集上零样…
Google Research 近日开源了 TabFM(Tabular Foundation Model)v1.0.0,定位为零样本表格数据基础模型,覆盖分类与回归两大任务。该模型以 PyTorch 权重发布(另有 JAX/Flax 版本),在「不需微调、不需超参搜索」的设定下,将训练样本作为上下文一次性前向推理即可得到预测,使用门槛极低。
模型架构:行列交替注意力
TabFM 的核心是「交替的行注意力与列注意力」机制,用以同时捕捉表格中特征之间的交互与行级模式,具体分三层:
- 列注意力(Set Transformer):先用傅里叶特征与按组分线性投影为每个单元格生成嵌入,再用 induced self-attention 在行维度做聚合。
- 行压缩:通过带 RoPE 的行级注意力把每行汇总为少量 CLS 令牌向量。
- ICL Transformer:24 层因果 Transformer 把训练行当作 in-context learning 上下文,对测试行输出预测。
关键超参:嵌入维度 256、列注意力 3 层(4 头、256 induced points)、行注意力 3 层(8 头、8 个 CLS 令牌)、ICL Transformer 24 层(8 头)、FFN 倍率 4、最大 10 类、激活函数 SwiGLU、32 阶傅里叶特征。
训练数据:用 SCM 合成数亿表
由于高质量、多样化的开源表格数据集稀缺,且真实工业数据存在隐私与授权问题,TabFM 完全在合成数据上训练:通过结构因果模型(SCM)动态生成「数亿张」合成表,把因果结构与特征关系的归纳偏置直接编码进先验。
性能:在 TabArena 零样本超越调优 GBDT
模型在 TabArena 基准的 51 个数据集(38 个分类、13 个回归)上做了零样本评估——只做一次前向推理、不做超参搜索——结果声称「超过精心调参的有监督基线,包括梯度提升树」。使用 TabFMClassifier.ensemble() 内置预设(特征交叉、SVD 特征、NNLS 混合)可进一步提升效果。详细基准数据见 Google Research 官方博客。
使用与限制
通过 pip install tabfm[pytorch] 即可快速上手,或直接用 HuggingFace Hub API 加载 google/tabfm-1.0.0-pytorch。使用上的注意事项与已知局限:
- 适合:含数值和/或类别列的表格;二分类与最多 10 类的多分类;连续目标回归;零样本推理;可处理 pandas DataFrame 与 numpy 数组。
- 不适合:图像、音频、视频、原始文本;超过 10 个类别;需要任务级微调;图、序列等非表格结构化数据;商业用途(权重采用 TabFM Non-Commercial License v1.0,代码采用 Apache 2.0)。
- 性能依赖:内存随训练行数线性增长(所有行都作为上下文传入);最佳适配「特征数 ≤ 500」的表格,超宽表格行为可能下降;不能保证在所有数据集上都优于专用微调模型。
- 伦理与免责声明:模型完全基于合成训练,对特定真实领域、少数群体与边缘分布的表现未充分刻画;不是 Google 官方支持的产品,在高风险场景部署前应在保留数据上自行评估。
GitHub 仓库已发布 1.0.0 版本,并提供 BibTeX 引用条目(年份标 2026),表明这是一项面向学术社区的正式研究产出。
