百万次 LLM 调用追踪:六成以上用错了模型
分析百万次生产环境 API 调用发现,多数团队把简单任务交给旗舰模型,成本浪费高达数十倍。
- 重要性
- 52
- 新颖性
- 45
- 影响面
- 52
- 可信度
- 60
- 实质性
- 68
一项针对 47 家企业、9 家供应商的百万级 LLM API 调用追踪显示:约 62% 的请求被路由到了不必要的高端模型,团队因此多付出了数倍乃至数十倍的成本。该分析汇总了 2025 至 2026 年间多家生产环境的真实账单数据,结论与多家行业调研相互印证。
旗舰模型成默认选项,惯性拖垮账单
Stack Overflow 2025 年度开发者调查显示,82% 的开发者在 AI 工作中使用 OpenAI 的 GPT 系列模型。GPT-4o 事实上成了「粘贴即用」的默认选择:客服机器人用它、JSON 抽取用它、五分类任务也用它。原型阶段的随手选择在进入生产环境后被长期保留,每天处理数万次调用却无人复核成本结构。
分析团队自述其内部聊天机器人曾连续三个月跑在 GPT-4o 上,直到审查时将 FAQ 部分切换至 GPT-4o-mini,该组件成本下降 94%,在自有评测集上未观察到质量差异。行业评论将这种现象称为「LLMflation」——团队长期沿用过时模型选择,即便更便宜的替代品已经追平能力。
同样一百万次请求,价格差 25 倍
以每次请求平均 500 输入 token、200 输出 token 的典型生产负载计算,六款主流模型月成本差距悬殊:
- GPT-4o:约 3,250 美元
- Claude Sonnet 4:约 4,500 美元
- Claude Haiku 3.5:约 1,200 美元
- GPT-4o-mini:约 195 美元
- DeepSeek V3:约 126 美元
- GPT-4.1 Nano:约 130 美元
从 GPT-4o 切换到 GPT-4.1 Nano 处理分类与抽取任务,输入 token 单价从 2.50 美元/百万降至 0.14 美元/百万,降幅约 18 倍。若进一步叠加模型路由与提示词缓存,总 LLM 支出可压缩 80%–95%。
哪些任务并不需要旗舰模型
多家生产环境运营方在 2026 年报告称,典型 SaaS 应用中 60%–70% 的 API 调用足够简单,完全可以交给低成本模型:
- 可交给低成本模型(输入 0.10–0.80 美元/百万 token):意图分类、JSON 或结构化抽取、200 字以内的摘要、情感分析、内容安全审核、短文本翻译。
- 建议保留在旗舰模型(输入 2.50–3.00 美元/百万 token):多步推理链、复杂代码生成与调试、对质量敏感的长内容创作、多模态任务,以及经过评测确认能力差距确实关键的任务。
问题在于多数团队从未做过评测。运营商反馈显示,生产环境中 40%–60% 的 token 预算属于纯浪费——花在旗舰模型上、干的却是低成本模型就能完成的活。
企业支出攀升,ROI 评估缺位
CloudZero 在 2025 年对 500 家美国软件公司(员工 250–10,000 人)的调查显示:平均月度 AI 支出从 63,000 美元跃升至 85,500 美元,同比增长 36%;45% 的组织计划每月在 AI 上花费超过 10 万美元,较 2024 年的 20% 翻倍。然而,只有 51% 的组织能够自信地评估 AI 投入的回报。
更宏观的数据印证了同一趋势:企业级 AI 支出在 2024 至 2025 年间从 115 亿美元增长至 370 亿美元,涨幅 320%,而同期单 token 成本大幅下降。Epoch AI 的统计显示,2025 年 LLM 推理价格的中位下降速率达到每年 50 倍,2024 年 1 月后,同能力档位最便宜模型的下降速率更加速至每年 200 倍。
价格下行与账单上行的剪刀差,指向同一个事实:用量增长跑赢了优化。在生产环境中引入模型路由、提示词缓存与定期重新评测,往往比单纯追逐更便宜的单价更能压低总成本。
