社区推出 Surface Evolver Bench：用物理仿真代码生成能力测试 LLM

近日，Reddit 社区 r/LocalLLaMA 用户 jordo45 分享了一款自研的 LLM 评测基准 Surface Evolver Bench，聚焦于「让大模型编写复杂物理仿真代码」这一细分任务。该基准基于作者研究生阶段使用的 Surface Evolver 工具构建，旨在衡量模型在查阅文档、实现规范、运行仿真、调试输出这一完整智能体循环中的综合表现。

基准的设计思路

Surface Evolver 是 1992 年发布的液体表面建模工具，常用于芯片焊点沉积、液体燃料箱建模以及芯片实验室（lab-on-a-chip）网络设计等场景。使用它进行仿真需要编写自定义数据文件，内容涵盖顶点、边、面、体、约束条件、能量项以及边界积分等多个要素。

任务形式：模型需根据题目要求，生成符合规范的数据文件来描述液滴（绿色）与固体约束（橙色）之间的相互作用。
题目样例：液滴停留在凹槽中、液滴在两根杆之间架桥、液滴在十字通道内流动等。
评测维度：作者给出了整体得分、单项通过数、token 消耗与成本等汇总指标。

由于该任务天然包含「查文档—写代码—跑仿真—改错误」的循环，作者认为它比单纯的代码补全更能反映模型的智能体能力。

初步跑分结果

作者在网站公布了多款模型的初步对比结果，摘要如下：

GPT-5.5：在多项任务中表现最佳，是目前唯一能解出多道难题的模型。
GLM-5.2：在所有参与测试的开源权重模型中得分最高。

作者表示，基准曾在「上周短暂上线后下架」，原因是他发现评测流程中存在一些问题；本次为修复后重新发布。需要注意的是，帖文中出现的模型名称（如 GPT-5.5、GLM-5.2）并非广泛认知的公开发布版本，读者可前往原网站核对实际评测对象。

局限与延伸阅读

Surface Evolver Bench 仍属社区自研基准，尚未经过同行评审，也未公布详细的 prompt 设计、评分细则与逐题数据。其测试对象覆盖范围有限、样本量不大，因此结论目前更适合作为方向性参考，而非权威排名。

基准地址：https://yhenon.github.io/surface-evolver-llm-eval/
讨论区：Reddit r/LocalLLaMA 原帖

对关注 LLM 在科学计算与多步骤智能体任务中表现的开发者与研究者而言，这一基准提供了一个有趣的新视角；但若用于横向比较主流模型，仍需等待更完整的版本与更透明的评测方法。