小型模型工具调用新思路：用内部置信度替代口头置信度

一位独立研究者在 Reddit r/MachineLearning 板块发布了一项针对小型指令模型的实用工具增强方案，核心是基于 10MB 的 LoRA 适配器，将「是否调用工具」的决策信号由模型口头表达的自评置信度，改为读取其内部激活中的真实置信度。该方案以 Apache-2.0 协议开源，包含权重、代码与模型卡。

核心思路

作者观察到，参数规模在 3B–9B 的小型 instruct 模型普遍存在置信度天花板问题——它们几乎对所有问题都给出「我很确定」的回答，无法可靠地对外表达自己的真实把握度。但在内部激活里，这一信息其实是存在的。该 LoRA 适配器直接读取这一内部信号，用于门控（gate）三类行为：直接回答、网页搜索、本地知识库检索。当模型无法验证答案时，系统会主动选择「拒答」而非编造。

该项目在 Apple Silicon 的 MLX 上运行，同时也提供了适配 llama.cpp / Ollama 的 GGUF 量化构建，方便不同本地推理框架的用户使用。

关键效果数据

适配器在三项指标上给出了带置信区间的实测结果：

错误捕获能力：相比基座模型自身的工具调用，门控能多发现一批真错误，d' 提升 0.46（95% CI [0.01, 0.89]）。在门控额外拦截而基座模型未拦截的样本中，87% 确实是错误回答。
隐私路由：双信号版本会把与个人信息相关的问题（如「我的出院小结怎么写」）路由到本地检索而非公网搜索，将泄露到公网搜索的隐私问题比例由 22% 降至 10%（降幅 0.12，95% CI [0.02, 0.22]）。
可追溯性：每条答案都附带具体引文（如 report.md ¶2）以及一段置信区间带，最差情况直接回复「我无法验证」。

局限与注意事项

作者公开承认若干限制，使用时需留意：

隐私结论样本量 n=60，检索与能力的解耦实验样本量 n=126，属于手工筛选并报告了置信区间，但规模偏小。
GGUF 构建在 LoRA 缩放因子为约 8 时（经扫描得到；scale=1 无效）能较好复现 MLX 的门控决策；24 项探针上一致性 0.83，不一致项均为「GGUF 更保守」方向，安全关键方向忠实。
推理期仅输出粗粒度置信度（已落地 / 已拒答 / 已作答），细分置信区间需离线探针访问。
适配器本身并不扩充模型知识，它决定的是「何时相信模型」，而非「模型知道什么」——底层仍继承基座的知识与偏置。

适用性与开源信息

作者表示该方法并非 Qwen 专用，他从 SmolLM3-3B 起步验证后迁移到当前模型，理论上可推广到其他模型与更大尺寸。权重与代码已发布在 Hugging Face（synthiumjp/competence-gate-qwen3.5-4b），模型卡中引用了相关方法论与文献。作者明确希望社区就方法论与评估设计提出批评。