Reddit 用户设计实验,让大模型生成「过程性脚手架」帮助小模型完成 Three.js 复杂场景;初步肉眼评估显示小模…
Reddit 用户近日在 r/LocalLLaMA 板块分享了一项有趣的实验:让大模型生成一段「过程性脚手架」,看能否在不微调参数的前提下,帮助小模型在复杂的 Three.js 渲染任务上把场景搭得更合理。作者自行完成的初步肉眼评估显示,小模型(27B 乃至 Q3_K_M 量化后的 35B)在套入该脚手架后,画面结构与可读性出现明显改善,而大模型本身的提升主要体现在润色层面。
作者观察到一个普遍现象:小模型虽然掌握语法、库函数和大致任务语义,但生成的输出往往缺乏层次、规划与视觉结构。常规代码任务中,这部分弱点容易被冗长解释或既有模式掩盖。因此他选择 Three.js 作为试金石——渲染结果会直接暴露模型的「结构能力」:几何规划、相机、灯光、层级与构图若没到位,画面一眼就能看出问题。
实验选取两个差异显著的领域:
两者共用 Three.js,但考察的能力完全不同:前者比角色、姿态与环境,后者比结构、比例与剪影。作者强调,实验目标并非迁移场景本身的内容,而是迁移「过程」。
设大模型 A、小模型 B、源提示 P1、目标提示 P2、过程性脚手架 S,步骤为:
核心问题是:D2B_S 是否比 D2B 更接近 D2A?即脚手架能否跨任务改善小模型,而非仅在见过答案的题目上提升。
作者对比了 DeepSeek V4 Pro、Qwen 27B 以及 Q3_K_M 量化的 35B A3:
关键发现是:脚手架没有把源域的内容「抄」进目标域——Thriller 细节不会出现在坦克上,人肢也不会冒到炮塔边。真正被传递的是更抽象的过程规范:
大模型获得的主要是润色,小模型收获最多的是结构与可读性。作者把这一现象解释为:小模型未必缺知识,而是缺乏在长生成中维持整体结构的过程控制能力;脚手架相当于在上下文中临时注入一份「规划纪律」,让模型把已经具备的能力组织起来。
作者明确指出目前只是肉眼 sanity check,尚非正式 benchmark。下一步要把实验改造成盲测:由不知情的评估者仅凭渲染图对 D2A、D2B、D2B_S 三份输出打分,看是否能在大量提示上稳定满足 Score(D2A, D2B_S) > Score(D2A, D2B)。若成立,则脚手架传递的就不是单次提示技巧,而是一种可复用的过程。