MathFormer：4M 参数小模型在符号数学任务上接近 99% 准确率

一项名为 MathFormer 的小型实验引发社区讨论：仅 420 万参数的序列到序列模型，在完全不注入任何数学先验知识的条件下，于符号数学任务（多项式展开）中取得约 98.6% 的准确率。这一结果被研究者视为对「大模型数学推理」叙事的质疑——模型可能只是在学习结构化的 token 变换，而非真正理解运算符或变量语义。

实验设置

任务定义较为直接：给定因式分解后的表达式，例如 (7-3z)(-5z-9)，要求模型输出其展开形式（如 15z² - 8*z - 63）。研究者采用了一个参数量仅约 4M 的小型 Transformer 架构 seq2seq 模型，训练过程中未使用任何数学符号规则或代数先验，完全依赖纯数据驱动学习。最终在测试集上达到约 98.6% 的准确率。

项目代码与结果已在 GitHub 开源（Abhinand20/MathFormer），便于复现与后续验证。

主要观点

研究者认为，这表明符号数学任务本质上可以被视为「结构化 token 补全」而非真正的逻辑推理。如果将此类机制放大到更大规模，是否可以解释当前大模型在数学题上表现出「类推理」能力，但实际上仍是规模化的模式匹配？这一假说对理解 LLM 数学能力边界具有启发意义。

局限与讨论

任务范围有限：当前实验仅覆盖多项式展开等机械变换，未涉及需要多步推导或创造性构造的数学问题。
未涉及强化学习：原帖提问者在评论中追问，如果引入 RL（如 RLHF 或过程奖励模型），是否会改变这一范式——即在小模型「模式匹配」基础上叠加 RL 是否能催生真正的推理能力，原项目尚未给出答案。
复现门槛低：4M 参数规模与公开代码意味着社区可快速验证或扩展实验。

总体而言，MathFormer 提供了一个低成本、可复现的实验基座，为持续探讨「大模型是否真正会推理」这一开放问题提供了一个具体切入点。