开源
小型模型工具调用新思路:用内部置信度替代口头置信度
研究者在 Qwen3.5-4B 上发布 10MB LoRA 适配器,通过读取模型内部激活而非口头表达来决策是否检索,可减…
2026.07.05 · 周日约 3 分钟阅读
一位独立研究者在 Reddit r/MachineLearning 板块发布了一项针对小型指令模型的实用工具增强方案,核心是基于 10MB 的 LoRA 适配器,将「是否调用工具」的决策信号由模型口头表达的自评置信度,改为读取其内部激活中的真实置信度。该方案以 Apache-2.0 协议开源,包含权重、代码与模型卡。
核心思路
作者观察到,参数规模在 3B–9B 的小型 instruct 模型普遍存在置信度天花板问题——它们几乎对所有问题都给出「我很确定」的回答,无法可靠地对外表达自己的真实把握度。但在内部激活里,这一信息其实是存在的。该 LoRA 适配器直接读取这一内部信号,用于门控(gate)三类行为:直接回答、网页搜索、本地知识库检索。当模型无法验证答案时,系统会主动选择「拒答」而非编造。
该项目在 Apple Silicon 的 MLX 上运行,同时也提供了适配 llama.cpp / Ollama 的 GGUF 量化构建,方便不同本地推理框架的用户使用。
关键效果数据
适配器在三项指标上给出了带置信区间的实测结果:
- 错误捕获能力:相比基座模型自身的工具调用,门控能多发现一批真错误,d' 提升 0.46(95% CI [0.01, 0.89])。在门控额外拦截而基座模型未拦截的样本中,87% 确实是错误回答。
- 隐私路由:双信号版本会把与个人信息相关的问题(如「我的出院小结怎么写」)路由到本地检索而非公网搜索,将泄露到公网搜索的隐私问题比例由 22% 降至 10%(降幅 0.12,95% CI [0.02, 0.22])。
- 可追溯性:每条答案都附带具体引文(如
report.md ¶2)以及一段置信区间带,最差情况直接回复「我无法验证」。
局限与注意事项
作者公开承认若干限制,使用时需留意:
- 隐私结论样本量 n=60,检索与能力的解耦实验样本量 n=126,属于手工筛选并报告了置信区间,但规模偏小。
- GGUF 构建在 LoRA 缩放因子为约 8 时(经扫描得到;scale=1 无效)能较好复现 MLX 的门控决策;24 项探针上一致性 0.83,不一致项均为「GGUF 更保守」方向,安全关键方向忠实。
- 推理期仅输出粗粒度置信度(已落地 / 已拒答 / 已作答),细分置信区间需离线探针访问。
- 适配器本身并不扩充模型知识,它决定的是「何时相信模型」,而非「模型知道什么」——底层仍继承基座的知识与偏置。
适用性与开源信息
作者表示该方法并非 Qwen 专用,他从 SmolLM3-3B 起步验证后迁移到当前模型,理论上可推广到其他模型与更大尺寸。权重与代码已发布在 Hugging Face(synthiumjp/competence-gate-qwen3.5-4b),模型卡中引用了相关方法论与文献。作者明确希望社区就方法论与评估设计提出批评。
