Token烧钱时代结束，企业押注「小模型经济学」

曾被默认「Token管够」的 AI 用量策略，正在被一张张失控的账单反向修正。从硅谷大厂到欧洲企业，越来越多的公司开始把「最贵最强的旗舰模型」与「便宜够用的轻量模型」组合使用，按任务难度分配推理资源。这一做法被业内称为「小模型经济学」，其本质是企业用工程化的方式，把每一枚 Token 花的更值。

从「Token 最大化」到「Token 最小化」

过去一年，不少公司把 AI 使用量当作「AI-first」的衡量指标，鼓励员工多用前沿模型。结果是账单先于产出失控。Uber 曾大规模推广 Claude Code、Cursor 等编程 Agent，几个月内烧穿了全年的 AI 编程预算，COO Andrew Macdonald 公开质疑难以把使用量与「多交付 25% 有用功能」挂钩，随后公司给每位员工、每个工具设置了每月 1500 美元的 Token 上限。

亚马逊内部曾出现过一个叫 KiroRank 的排行榜，比拼谁消耗 Token 更多，很快被员工「玩坏」——派 Agent 去跑无意义任务，排名照样上升。高级副总裁 Dave Treadwell 不得不亲自喊话「别为了用 AI 而用 AI」，排行榜随后下线。Meta 内部也搞过名为「Claudeonomics」的用量激励，同样栽在同一个坑里，并已转向限制内部 Token 使用，原因是内部 AI 成本预计达到数十亿美元级别。微软则被曝大量取消 Claude Code 直接许可，转向 GitHub Copilot CLI，计费模式也从固定订阅走向按量付费。

供给侧跟上：便宜模型开始「够用」

企业自身收紧预算只是故事的一半，供给侧的快速跟进才是「小模型经济学」成立的前提。DeepSeek V4 系列成为最直接的代表：DeepSeek V4 Flash 的价格比 Anthropic 同类模型低约 20–50 倍，在 Ramp 的企业软件采购趋势榜上一度冲到第一。Vercel AI Gateway 的生产流量数据显示，DeepSeek 的 Token 份额在一个月内从不到 1% 升至 17%。微软也被报道在考虑用 DeepSeek V4 微调版，替换 Copilot Cowork 中部分原本由 Anthropic、OpenAI 承担的位置。

美国 Agent 公司 Lindy 则直接把 100% 的托管 Agent 流量从 Claude 迁移至 DeepSeek V4，迁移后推理成本下降约 90%。Siemens、Renault、Orange、ChapsVision 等欧洲企业，也开始同时混用美国、中国和欧洲的模型。

一个被业内广泛采用的分层逻辑正在成型：不差钱或任务复杂时，仍用 OpenAI、Anthropic 的旗舰模型；追求性价比时，则切到 DeepSeek、Kimi、智谱 GLM、MiniMax 这一档「够用且便宜」的模型。开源项目 ClawRouter 的数据显示，采用这种分层组合，平均成本可从每百万 Token 约 25 美元压到约 2 美元。

模型路由变成一门生意

需求与供给的交汇，让「帮企业省钱」本身变成了一条新赛道。模型路由公司 OpenRouter 不训练模型，只做调度台，帮企业和开发者在 OpenAI、Anthropic、Google、DeepSeek、Mistral 等数百个模型之间按价格、延迟、稳定性、上下文长度等维度调度。据报道，OpenRouter 今年完成 1.13 亿美元 B 轮融资，估值约 13 亿美元，周处理 Token 量从早期水平涨了约 5 倍至 25 万亿，用户量达 800 万。

Vercel AI Gateway 的数据揭示了大规模 AI 应用的真实样貌：月请求量超过 1000 万次的团队，平均会同时使用 35 个模型，分别负责意图识别、检索、摘要、复杂推理等不同环节。LiteLLM、Helicone 等工具则把模型路由做成了财务系统，按团队、项目、模型设置预算，监控每个接口的消耗，一旦供应商变贵或变慢就自动切流量。

云厂商同样在跟进。AWS Bedrock 的 Intelligent Prompt Routing 可在同一模型家族内自动分配请求，内部测试显示在 Claude Haiku 与 Sonnet 之间做路由，能在保持质量的同时节省 48%–56% 的成本。

怎么把任务分给对的模型

落地到具体工程，核心问题是「这一次请求该用便宜模型还是贵模型」。常见做法有三种：

规则路由：订单查询走小模型加 API 直接调用，法律问题走强模型加人审；
级联路由：先让便宜模型回答，格式校验、事实校验或置信度不达标时再升级给贵模型；
学习型路由：系统根据提示词难度、历史表现、预算与延迟自动判断该用哪个模型，并在价格变动或新模型上线时在线调整。

以一个客服 Agent 为例，用户询问「我的订单到哪了」时，可由便宜模型判断意图并抽取订单号，再调用物流 API，最后只需一个中等模型把结果润色为自然语言。用户看到的仍是「您的包裹已到达杭州转运中心」，但企业少跑了一大段昂贵推理。AI 编程同样如此：读取目录、生成简单测试、写 PR 摘要交给便宜模型，跨文件重构、安全敏感代码审查则交给 GPT、Claude 这类强模型。

围绕这套工程实践，研究界也出现了 ParetoBandit（动态环境下预算路由）、Budget-Aware Agentic Routing（Agent 场景逐步路由）等专门课题，探讨在长任务、多模型、预算受限条件下如何逐决定「省钱还是上强模型」。