AI 智能体上生产后，Token 账单怎么控？

随着大模型能力提升，「智能体（Agentic）」工作流被越来越多地推向生产环境——让模型自主解析请求、校验策略、分类路由并起草回复。然而当这类流程在高并发场景下正式上线时，随之而来的 Token 账单往往让团队措手不及。本文围绕一个常见的差旅报销场景，探讨如何通过「规则+模型」的混合架构，在保留模型能力的同时大幅压缩成本。

全模型驱动的智能体：Demo 漂亮，账单惊人

在当下主流的智能体框架下，构建一个端到端的 AI 流程非常迅速：让业务方在 Google Doc 中撰写政策，Agent 在每次报销请求中读取政策、解析票据、校验金额与日期、做出审批决定，并调用 HR 系统完成后续处理。这种方式对业务方而言灵活度极高——财务可以随时更新政策，无需开发介入；CTO 也能向董事会展示「用 AI 提升业务」的成果。

但「全模型」路径有几个隐性问题：

Token 成本：模型调用按输入输出量计费，请求量增长后开销可能远超预期。
一致性：模型输出具有不确定性，同一请求可能得到不同审批结果。
延迟：多轮模型调用会拉长端到端响应时间。
可解释性：审批被拒时难以追溯具体原因。

更关键的是，作者指出 Token 单价随着模型迭代并未明显下降，反而呈上升趋势。因此，单纯追求「全 AI 化」并不一定带来正向 ROI。

从「全 AI」到「规则+AI」的混合架构

作者提出的核心思路是：让模型只出现在真正需要「智能」的环节，把规则化、可枚举的逻辑交给确定性系统。以差旅报销为例，优化后的流程分为两段。

政策更新时：

读取最新政策文本；
由模型从政策中抽取基础规则集；
自动生成测试用例，交由财务审核；
审核通过后，将规则部署至生产环境。

每次报销请求时：

用户通过结构化表单提交；
若用户选择非结构化输入，再调用模型做格式转换；
运行已部署的规则进行匹配；
规则命中：直接按规则审批或拒绝；
规则未命中：调用模型裁决，或路由至人工处理低频疑难请求；
通知用户并调用 HR 系统。

效果：成本可降低 80%–90%

这种架构把模型能力集中在三个高价值环节——政策解析、规则抽取、非结构化输入理解与兜底裁决，而把高频、确定性的请求交给毫秒级响应的规则引擎。作者给出的经验数据是：Token 成本可下降 80%–90%；同时延迟、一致性、可解释性都得到改善。如果大部分用户采用结构化输入，模型连解析票据的步骤都可以省掉。

更深层的启示在于：AI 落地进入规模化阶段后，「用不用 AI」已不再是核心问题，「在哪些环节用 AI」才是决定成本与体验的关键。能够区分「哪些步骤需要智能、哪些只需规则」的团队，才能在 Token 账单与业务价值之间找到平衡点。