百万次 LLM 调用追踪：六成以上用错了模型

一项针对 47 家企业、9 家供应商的百万级 LLM API 调用追踪显示：约 62% 的请求被路由到了不必要的高端模型，团队因此多付出了数倍乃至数十倍的成本。该分析汇总了 2025 至 2026 年间多家生产环境的真实账单数据，结论与多家行业调研相互印证。

旗舰模型成默认选项，惯性拖垮账单

Stack Overflow 2025 年度开发者调查显示，82% 的开发者在 AI 工作中使用 OpenAI 的 GPT 系列模型。GPT-4o 事实上成了「粘贴即用」的默认选择：客服机器人用它、JSON 抽取用它、五分类任务也用它。原型阶段的随手选择在进入生产环境后被长期保留，每天处理数万次调用却无人复核成本结构。

分析团队自述其内部聊天机器人曾连续三个月跑在 GPT-4o 上，直到审查时将 FAQ 部分切换至 GPT-4o-mini，该组件成本下降 94%，在自有评测集上未观察到质量差异。行业评论将这种现象称为「LLMflation」——团队长期沿用过时模型选择，即便更便宜的替代品已经追平能力。

同样一百万次请求，价格差 25 倍

以每次请求平均 500 输入 token、200 输出 token 的典型生产负载计算，六款主流模型月成本差距悬殊：

GPT-4o：约 3,250 美元
Claude Sonnet 4：约 4,500 美元
Claude Haiku 3.5：约 1,200 美元
GPT-4o-mini：约 195 美元
DeepSeek V3：约 126 美元
GPT-4.1 Nano：约 130 美元

从 GPT-4o 切换到 GPT-4.1 Nano 处理分类与抽取任务，输入 token 单价从 2.50 美元/百万降至 0.14 美元/百万，降幅约 18 倍。若进一步叠加模型路由与提示词缓存，总 LLM 支出可压缩 80%–95%。

哪些任务并不需要旗舰模型

多家生产环境运营方在 2026 年报告称，典型 SaaS 应用中 60%–70% 的 API 调用足够简单，完全可以交给低成本模型：

可交给低成本模型（输入 0.10–0.80 美元/百万 token）：意图分类、JSON 或结构化抽取、200 字以内的摘要、情感分析、内容安全审核、短文本翻译。
建议保留在旗舰模型（输入 2.50–3.00 美元/百万 token）：多步推理链、复杂代码生成与调试、对质量敏感的长内容创作、多模态任务，以及经过评测确认能力差距确实关键的任务。

问题在于多数团队从未做过评测。运营商反馈显示，生产环境中 40%–60% 的 token 预算属于纯浪费——花在旗舰模型上、干的却是低成本模型就能完成的活。

企业支出攀升，ROI 评估缺位

CloudZero 在 2025 年对 500 家美国软件公司（员工 250–10,000 人）的调查显示：平均月度 AI 支出从 63,000 美元跃升至 85,500 美元，同比增长 36%；45% 的组织计划每月在 AI 上花费超过 10 万美元，较 2024 年的 20% 翻倍。然而，只有 51% 的组织能够自信地评估 AI 投入的回报。

更宏观的数据印证了同一趋势：企业级 AI 支出在 2024 至 2025 年间从 115 亿美元增长至 370 亿美元，涨幅 320%，而同期单 token 成本大幅下降。Epoch AI 的统计显示，2025 年 LLM 推理价格的中位下降速率达到每年 50 倍，2024 年 1 月后，同能力档位最便宜模型的下降速率更加速至每年 200 倍。

价格下行与账单上行的剪刀差，指向同一个事实：用量增长跑赢了优化。在生产环境中引入模型路由、提示词缓存与定期重新评测，往往比单纯追逐更便宜的单价更能压低总成本。