研究论文
跨域盲测新范式:无需微调验证大小模型技能迁移
Reddit 用户提出基于 Three.js 渲染的盲测实验,用于检验大模型能否将流程化能力压缩为可复用脚手架并迁移至小…
2026.06.28 · 周日约 3 分钟阅读评分 27
评分细项加权总分 27
- 重要性
- 25
- 新颖性
- 38
- 影响面
- 15
- 可信度
- 30
- 实质性
- 22
一名研究者在 r/LocalLLaMA 社区提出了一套基于 Three.js 渲染的跨域盲测实验范式,旨在验证大模型的「流程化能力」能否压缩为可复用结构,并在不微调的前提下迁移到小模型上。该范式尚处于假设阶段,作者明确表示尚未运行核心实验。
研究动机:小模型并非「笨」而是「浅」
作者在测试 9B 等小参数模型时观察到,这些模型能理解任务意图,但输出缺乏规划深度、层次结构与流程纪律,往往跳过大模型自然完成的结构性步骤。由此引出两个核心问题:
- 大模型(Model A)能否将自身的「流程纪律」压缩为可复用脚手架(S),让小模型(Model B)表现得更深?
- 这种迁移是否真实存在,还是仅仅是对源例的过拟合?
实验设计:为什么选 Three.js
Three.js 被选作测试平台,原因有二:一是结果易于可视化验证;二是渲染图像无法用冗长文本掩盖理解缺陷——模型必须输出真正结构化的代码,否则画面立刻暴露问题。
实验基线包含四组输出:
- D1A:大模型对复杂电影场景(如「迈克尔·杰克逊、Pepe、特朗普、马斯克共跳 Thriller」)的渲染
- D1B:小模型在同一提示下的输出——概念在但结构浅
- D2A:大模型在完全无关领域(「Three.js 制作低多边形 BMPT-72 炮塔」)的输出
- D2B:小模型在炮塔任务上的基线输出
核心假设:可迁移的「流程脚手架」
作者假设:大模型能够通过对比 D1A 与 D1B 的差距,提炼出通用的流程脚手架 S,即一组分解步骤或硬度逻辑(如:规划 → 几何 → 轮廓校验 → 细化 → 渲染 → 批评)。
关键约束是:S 不能包含 D1 的具体答案,只能提取更底层的构造原则。
盲审验证机制
真正的验证步骤尚未运行,流程设计如下:
- 将 S 应用到小模型,在炮塔任务(与 Thriller 场景完全不同)上生成 D2B_S
- 引入一个对实验背景、提示、脚手架均一无所知的大模型新实例(Model C)作为盲审裁判
- Model C 仅依据渲染图像,对 D2A、D2B、D2B_S 在视觉质量、可识别轮廓、结构连贯性与细节密度四个维度上以 0–10 分量化打分
结论判据
若 Score(D2A, D2B_S) > Score(D2A, D2B),即脚手架化后的小模型输出在视觉上更接近大模型基线、且从未见过炮塔答案,则证明 S 包含了跨域可迁移的流程化知识,而非对源例的过拟合。
作者认为,这种可视化、跨域、盲审的范式有望成为验证「训练后技能泛化」的有效方法,并邀请社区讨论其潜在缺陷与改进方向。目前该贴为方法学讨论帖,尚无配套实验数据或论文。
