Google Research 开源 TabFM：表格数据零样本基础模型

Google Research 近日开源了 TabFM（Tabular Foundation Model）v1.0.0，定位为零样本表格数据基础模型，覆盖分类与回归两大任务。该模型以 PyTorch 权重发布（另有 JAX/Flax 版本），在「不需微调、不需超参搜索」的设定下，将训练样本作为上下文一次性前向推理即可得到预测，使用门槛极低。

模型架构：行列交替注意力

TabFM 的核心是「交替的行注意力与列注意力」机制，用以同时捕捉表格中特征之间的交互与行级模式，具体分三层：

列注意力（Set Transformer）：先用傅里叶特征与按组分线性投影为每个单元格生成嵌入，再用 induced self-attention 在行维度做聚合。
行压缩：通过带 RoPE 的行级注意力把每行汇总为少量 CLS 令牌向量。
ICL Transformer：24 层因果 Transformer 把训练行当作 in-context learning 上下文，对测试行输出预测。

关键超参：嵌入维度 256、列注意力 3 层（4 头、256 induced points）、行注意力 3 层（8 头、8 个 CLS 令牌）、ICL Transformer 24 层（8 头）、FFN 倍率 4、最大 10 类、激活函数 SwiGLU、32 阶傅里叶特征。

训练数据：用 SCM 合成数亿表

由于高质量、多样化的开源表格数据集稀缺，且真实工业数据存在隐私与授权问题，TabFM 完全在合成数据上训练：通过结构因果模型（SCM）动态生成「数亿张」合成表，把因果结构与特征关系的归纳偏置直接编码进先验。

性能：在 TabArena 零样本超越调优 GBDT

模型在 TabArena 基准的 51 个数据集（38 个分类、13 个回归）上做了零样本评估——只做一次前向推理、不做超参搜索——结果声称「超过精心调参的有监督基线，包括梯度提升树」。使用 TabFMClassifier.ensemble() 内置预设（特征交叉、SVD 特征、NNLS 混合）可进一步提升效果。详细基准数据见 Google Research 官方博客。

使用与限制

通过 pip install tabfm[pytorch] 即可快速上手，或直接用 HuggingFace Hub API 加载 google/tabfm-1.0.0-pytorch。使用上的注意事项与已知局限：

适合：含数值和/或类别列的表格；二分类与最多 10 类的多分类；连续目标回归；零样本推理；可处理 pandas DataFrame 与 numpy 数组。
不适合：图像、音频、视频、原始文本；超过 10 个类别；需要任务级微调；图、序列等非表格结构化数据；商业用途（权重采用 TabFM Non-Commercial License v1.0，代码采用 Apache 2.0）。
性能依赖：内存随训练行数线性增长（所有行都作为上下文传入）；最佳适配「特征数 ≤ 500」的表格，超宽表格行为可能下降；不能保证在所有数据集上都优于专用微调模型。
伦理与免责声明：模型完全基于合成训练，对特定真实领域、少数群体与边缘分布的表现未充分刻画；不是 Google 官方支持的产品，在高风险场景部署前应在保留数据上自行评估。

GitHub 仓库已发布 1.0.0 版本，并提供 BibTeX 引用条目（年份标 2026），表明这是一项面向学术社区的正式研究产出。