用 Qwen3-1.7B 微调「求助小模型」,客服场景可少用约 25 倍大模型调用
团队演示把 Qwen3-1.7B 微调成能识别自己力不能及的对话并自动转交大模型的客服分流模型,在航空客服数据上以约 9…
一家团队近日在 Hacker News 分享了一套面向客服场景的两级模型部署方案:把 Qwen3-1.7B 微调成能在自身无法作答时主动调用「defer_to_larger_model」工具的小模型(SLM),由编排器把它转交给更大的模型。整套系统不需要外挂难度分类器或置信度阈值,「让不该小模型答的题自己提出来」是其核心思路。
问题背景:要么贵、要么错
客服对话中绝大多数轮次是「查我的预订」「我带几件行李」类的简单查询,而少数涉及退票规则、跨乘客赔偿、多约束改签等复杂问题,才是小模型真正容易出错的「硬尾」。两种极端部署各有代价:
- 全部交给前沿大模型:质量有保障,但每 100 万轮对话成本约 3,000 美元,单轮延迟 500–1,200 毫秒。
- 全部交给云端小模型:成本降到约 600 美元 / 100 万轮,延迟 100–300 毫秒,但硬尾会出现「自信但错误」的答复。
文章按 GPT-4o 的公开定价(输入 2.50 美元 / 输出 10 美元每百万 token)和典型客服轮次约 800 输入 + 100 输出 token 估算上述数字,小模型按云端小模型费率约为大模型的五分之一。
思路:让小模型自己「举手」
传统级联方案需要额外构建路由器:难度分类器、logprob 置信度阈值、或独立的小型决策模型。文章认为这堆组件既难调,又通常校准不佳,因此将分流决策直接训练进小模型:
- 蒸馏阶段由教师模型标出「真正答不好」的轮次;
- 学生模型学会在见到这类轮次时像调用一般工具一样发出
defer_to_larger_model; - 编排器接到这一工具调用后,把后续对话交由大模型处理。
这样路由器从「外挂在模型上的一层」变成「模型自身视图的一部分」,系统结构更简单,校准也更好。
演示与评测
团队以航空客服为例做了端到端 demo:由微调后的 Qwen3-1.7B 处理绝大多数对话,仅把最难的约 4% 转交大模型。评测采用独立 GLM-5 作裁判,按 800 个保留测试轮次逐轮打分,结果如下:
- 全程使用大模型(GLM-5):严格裁判得分 0.79 ± 0.03,宽松裁判 0.88 ± 0.03,前沿模型调用占比 100%。
- 完整级联(小模型 + 转交):严格裁判 0.76 ± 0.03,宽松裁判 0.85 ± 0.03,前沿模型调用约 4%。
两套系统的质量差距为 +0.03 ± 0.03(严格)和 +0.03 ± 0.02(宽松),95% 置信区间包含零,配对 McNemar 检验在两种裁判下均未达统计显著。换言之,级联方案在质量上与全程大模型「统计上不可区分」,但前沿模型调用量约下降到原来的 1/25。按文章给出的速率,混合账单约 700 美元 / 100 万轮,介于全小模型(约 600 美元)与全大模型(约 3,000 美元)之间,更接近前者。
谁会关心这套方案
文章面向「对话量大且大多数轮次很简单的客服 / 内部支持类工作流」,并提到原始未经微调的 Qwen3-1.7B 在该测试集上仅得 0.42,说明能力提升主要来自针对领域的微调而非模型自身。需要注意的是,文章正文在评测结果之后被截断,未给出完整的训练数据规模与更多对照细节;同时文中留下了「联系我们展示这套 SLM 在你的领域能做什么」的转化话术,性质更偏向服务方技术博客而非独立研究。
