社区推出 Surface Evolver Bench:用物理仿真代码生成能力测试 LLM
Reddit 用户发布自研基准 Surface Evolver Bench,让模型编写 Surface Evolver…
近日,Reddit 社区 r/LocalLLaMA 用户 jordo45 分享了一款自研的 LLM 评测基准 Surface Evolver Bench,聚焦于「让大模型编写复杂物理仿真代码」这一细分任务。该基准基于作者研究生阶段使用的 Surface Evolver 工具构建,旨在衡量模型在查阅文档、实现规范、运行仿真、调试输出这一完整智能体循环中的综合表现。
基准的设计思路
Surface Evolver 是 1992 年发布的液体表面建模工具,常用于芯片焊点沉积、液体燃料箱建模以及芯片实验室(lab-on-a-chip)网络设计等场景。使用它进行仿真需要编写自定义数据文件,内容涵盖顶点、边、面、体、约束条件、能量项以及边界积分等多个要素。
- 任务形式:模型需根据题目要求,生成符合规范的数据文件来描述液滴(绿色)与固体约束(橙色)之间的相互作用。
- 题目样例:液滴停留在凹槽中、液滴在两根杆之间架桥、液滴在十字通道内流动等。
- 评测维度:作者给出了整体得分、单项通过数、token 消耗与成本等汇总指标。
由于该任务天然包含「查文档—写代码—跑仿真—改错误」的循环,作者认为它比单纯的代码补全更能反映模型的智能体能力。
初步跑分结果
作者在网站公布了多款模型的初步对比结果,摘要如下:
- GPT-5.5:在多项任务中表现最佳,是目前唯一能解出多道难题的模型。
- GLM-5.2:在所有参与测试的开源权重模型中得分最高。
作者表示,基准曾在「上周短暂上线后下架」,原因是他发现评测流程中存在一些问题;本次为修复后重新发布。需要注意的是,帖文中出现的模型名称(如 GPT-5.5、GLM-5.2)并非广泛认知的公开发布版本,读者可前往原网站核对实际评测对象。
局限与延伸阅读
Surface Evolver Bench 仍属社区自研基准,尚未经过同行评审,也未公布详细的 prompt 设计、评分细则与逐题数据。其测试对象覆盖范围有限、样本量不大,因此结论目前更适合作为方向性参考,而非权威排名。
- 基准地址:https://yhenon.github.io/surface-evolver-llm-eval/
- 讨论区:Reddit r/LocalLLaMA 原帖
对关注 LLM 在科学计算与多步骤智能体任务中表现的开发者与研究者而言,这一基准提供了一个有趣的新视角;但若用于横向比较主流模型,仍需等待更完整的版本与更透明的评测方法。
