用 Qwen3-1.7B 微调「求助小模型」，客服场景可少用约 25 倍大模型调用

一家团队近日在 Hacker News 分享了一套面向客服场景的两级模型部署方案：把 Qwen3-1.7B 微调成能在自身无法作答时主动调用「defer_to_larger_model」工具的小模型（SLM），由编排器把它转交给更大的模型。整套系统不需要外挂难度分类器或置信度阈值，「让不该小模型答的题自己提出来」是其核心思路。

问题背景：要么贵、要么错

客服对话中绝大多数轮次是「查我的预订」「我带几件行李」类的简单查询，而少数涉及退票规则、跨乘客赔偿、多约束改签等复杂问题，才是小模型真正容易出错的「硬尾」。两种极端部署各有代价：

全部交给前沿大模型：质量有保障，但每 100 万轮对话成本约 3,000 美元，单轮延迟 500–1,200 毫秒。
全部交给云端小模型：成本降到约 600 美元 / 100 万轮，延迟 100–300 毫秒，但硬尾会出现「自信但错误」的答复。

文章按 GPT-4o 的公开定价（输入 2.50 美元 / 输出 10 美元每百万 token）和典型客服轮次约 800 输入 + 100 输出 token 估算上述数字，小模型按云端小模型费率约为大模型的五分之一。

思路：让小模型自己「举手」

传统级联方案需要额外构建路由器：难度分类器、logprob 置信度阈值、或独立的小型决策模型。文章认为这堆组件既难调，又通常校准不佳，因此将分流决策直接训练进小模型：

蒸馏阶段由教师模型标出「真正答不好」的轮次；
学生模型学会在见到这类轮次时像调用一般工具一样发出 defer_to_larger_model；
编排器接到这一工具调用后，把后续对话交由大模型处理。

这样路由器从「外挂在模型上的一层」变成「模型自身视图的一部分」，系统结构更简单，校准也更好。

演示与评测

团队以航空客服为例做了端到端 demo：由微调后的 Qwen3-1.7B 处理绝大多数对话，仅把最难的约 4% 转交大模型。评测采用独立 GLM-5 作裁判，按 800 个保留测试轮次逐轮打分，结果如下：

全程使用大模型（GLM-5）：严格裁判得分 0.79 ± 0.03，宽松裁判 0.88 ± 0.03，前沿模型调用占比 100%。
完整级联（小模型 + 转交）：严格裁判 0.76 ± 0.03，宽松裁判 0.85 ± 0.03，前沿模型调用约 4%。

两套系统的质量差距为 +0.03 ± 0.03（严格）和 +0.03 ± 0.02（宽松），95% 置信区间包含零，配对 McNemar 检验在两种裁判下均未达统计显著。换言之，级联方案在质量上与全程大模型「统计上不可区分」，但前沿模型调用量约下降到原来的 1/25。按文章给出的速率，混合账单约 700 美元 / 100 万轮，介于全小模型（约 600 美元）与全大模型（约 3,000 美元）之间，更接近前者。

谁会关心这套方案

文章面向「对话量大且大多数轮次很简单的客服 / 内部支持类工作流」，并提到原始未经微调的 Qwen3-1.7B 在该测试集上仅得 0.42，说明能力提升主要来自针对领域的微调而非模型自身。需要注意的是，文章正文在评测结果之后被截断，未给出完整的训练数据规模与更多对照细节；同时文中留下了「联系我们展示这套 SLM 在你的领域能做什么」的转化话术，性质更偏向服务方技术博客而非独立研究。