桃子桃子 AI 快讯
返回首页
研究论文

MathFormer:4M 参数小模型在符号数学任务上接近 99% 准确率

研究者用 420 万参数的无数学知识 seq2seq 模型,在多项式展开任务上达到约 98.6% 准确率,质疑大模型数学…

2026.06.28 · 周日2 分钟阅读评分 49
评分细项加权总分 49
重要性
50
新颖性
55
影响面
40
可信度
45
实质性
55

一项名为 MathFormer 的小型实验引发社区讨论:仅 420 万参数的序列到序列模型,在完全不注入任何数学先验知识的条件下,于符号数学任务(多项式展开)中取得约 98.6% 的准确率。这一结果被研究者视为对「大模型数学推理」叙事的质疑——模型可能只是在学习结构化的 token 变换,而非真正理解运算符或变量语义。

实验设置

任务定义较为直接:给定因式分解后的表达式,例如 (7-3z)(-5z-9),要求模型输出其展开形式(如 15z² - 8*z - 63)。研究者采用了一个参数量仅约 4M 的小型 Transformer 架构 seq2seq 模型,训练过程中未使用任何数学符号规则或代数先验,完全依赖纯数据驱动学习。最终在测试集上达到约 98.6% 的准确率。

项目代码与结果已在 GitHub 开源(Abhinand20/MathFormer),便于复现与后续验证。

主要观点

研究者认为,这表明符号数学任务本质上可以被视为「结构化 token 补全」而非真正的逻辑推理。如果将此类机制放大到更大规模,是否可以解释当前大模型在数学题上表现出「类推理」能力,但实际上仍是规模化的模式匹配?这一假说对理解 LLM 数学能力边界具有启发意义。

局限与讨论

  • 任务范围有限:当前实验仅覆盖多项式展开等机械变换,未涉及需要多步推导或创造性构造的数学问题。
  • 未涉及强化学习:原帖提问者在评论中追问,如果引入 RL(如 RLHF 或过程奖励模型),是否会改变这一范式——即在小模型「模式匹配」基础上叠加 RL 是否能催生真正的推理能力,原项目尚未给出答案。
  • 复现门槛低:4M 参数规模与公开代码意味着社区可快速验证或扩展实验。

总体而言,MathFormer 提供了一个低成本、可复现的实验基座,为持续探讨「大模型是否真正会推理」这一开放问题提供了一个具体切入点。

信源