Token 不经济：大模型涨价潮与企业的成本困局

Token 消耗与实际产出不成比例的现象，正在大型科技公司内部集中爆发。微软在开放 Anthropic 旗下 Claude Code 仅 6 个月后即收回许可，将员工导向自家 Copilot CLI；Uber 用 4 个月耗尽 2026 年全年 AI 编程工具预算；亚马逊内部出现无意义的 token 消耗；Meta 悄然撤下鼓励员工刷量的 Tokenmaxxing 排行榜。这些案例共同指向一个被作者命名为「Token 不经济」的结构性问题：人人都在拥抱 AI，但尚未找到正确的姿势，企业只见越来越长的账单，未见对应的收益。

Token 不经济是内部管控不力、Token 使用回报有限、Agent 架构设计缺陷（Skill 重复调用、长程任务内耗、多智能体协同成本）多重因素叠加的产物。要让 token 净收益转正，既需从供给端压低单价，也需从需求端让消耗在产业场景中产生实际价值。

头部厂商的定价权之争

Anthropic：以编码先发优势建立溢价锚点

Anthropic 是闭源厂商中最早将编程识别为 token 变现核心场景的公司。开发者与企业技术团队对价格不敏感，更看重编码效率与质量，这为 token 溢价提供了空间。

自 2024 年初推出 Claude 3 系列起，Anthropic 率先采用旗舰-中端-轻量的立体产品组合：

Opus 系列：$15 / $75（输入/输出每百万 token，下同），定位编程业内标杆，锚定高端市场。
Sonnet 系列：$3 / $15，面向日常编程与办公任务，提供高性价比选择。
Haiku 系列：$1 / $5，面向轻量快捷互动场景。

精细分层使 Anthropic 能在每一价格带最大化利润提取。后续 Opus 4.5 大幅降价挤压竞品；新一代 Mythos Preview（$25 / $125）在 Opus 之上再设超高端分层；同期发布的 Fable 5 以安全约束为差异点，采用 $10 / $50 定价，形成「能力分层、风险分层、定价分层」的三维策略，重新拿回溢价市场。这一策略的财务验证显著：Anthropic 年度经常性收入（ARR）从 2024 年底约 10 亿美元飙升至 2026 年 5 月约 450 亿美元。

OpenAI 与 Google：以价换量的追赶路径

OpenAI 早期将大量资源投入 Sora 等多模态项目，办公与编程场景表现相对靠后。意识到编程才是变现主战场后，OpenAI 一方面砍掉高消耗项目、聚焦编码与 Agent 能力，另一方面紧贴 Anthropic 搭建分层矩阵：

旗舰 GPT 5.5：$5 / $30，与 Claude Opus 同档高端锚点。
次级 GPT 5.4 mini：$0.75 / $4.50，nano：$0.20 / $1.25，大幅低于同级 Claude Haiku 4.5（$1.00 / $5.00），以低价抢市场。

Google 受限于云服务、Workspace、搜索多线并行的生态结构，动作更谨慎。Gemini 1.5 Pro 在短 prompt（<128k）情形下输出百万 token 仅 5 美元，是同期 GPT-4o 的三分之一、Opus 3 的十五分之一；2026 年 2 月发布的 Gemini 3.1 Pro 输出价提升至 12 美元，仍显著低于同期 GPT 5.4 的 15 美元和 Opus 4.6/4.7 的 25 美元。Google 还在 Flash 之下增设 Flash-Lite，将调用价压至开源模型同等水位。备受关注的 Gemini 3.5 Pro 迟迟未发布，也折射出 Google 在性能、安全与生态适配之间的内部博弈。

次级与开源模型市场：地板在抬升

旗舰拼性能、次级/轻量卷价格是市场惯常预期，但过去两年经济型 token 市场的价格中枢实际在悄然上移。

表面看这是红海：DeepSeek V3 以约 $0.27 / $1.10 切入，R1 以 $0.55 / $2.19 提供推理增强能力，GLM-4 Plus 以 $0.69 / $0.35 提供接近 GPT-4 级别能力，对价格敏感开发者极具吸引力。

但每代新品发布都伴随地板抬升：

Haiku 3.5（$0.80 / $4.00）→ Haiku 4.5（$1.00 / $5.00），上浮约 20%。
GPT-4o mini（$0.15 / $0.60）→ 4.1 mini（$0.40 / $1.60），近乎翻番。
Gemini 2.0 Flash（$0.10 / $0.40）→ 2.5 Flash（$0.30 / $2.50），输出价翻 6 倍以上。
开源侧 GLM-5 在海外市场定价较 GLM-4.7 提升约 67%–100%。

根本原因在于经济型 token 消费量呈爆炸式增长：日常编码、文档处理、自动化流程大多由 Sonnet、mini、Flash 与开源模型承担，调用量激增远超旗舰模型。烧现金维持低价的游戏难以为继，厂商提价空间随之打开，竞争逻辑从「哪家更便宜」转向「哪家性价比更高」。整体看，token 市场正经历「高端定价格局固化、中端量价齐升、经济型跟随追涨」的全线抬升过程，下游使用者成本攀升是这一格局的直接结果。

智能体架构的隐形消耗

上下文陷阱

模型推理需计算每个 token 与其他 token 的关系，上下文越长计算负担越重。Agent 架构天然放大长文本陷阱：智能体拆解问题、规划工具调用、读文件、检反馈、修改方案、循环往复，每步都可能把历史记录重新带入上下文，同一批信息被反复读取、反复计费。Salim 等人（2026）对 ChatDev 框架的分析显示，代码审查阶段消耗的 token 平均占总消耗的 39.5%，意味着近四成花费发生在 Agent 之间反复传递已有信息的过程中，而非真正生成新内容。

分词器黑箱

分词器决定同等参数量下模型的信息密度上限、有效上下文长度下限与边缘 case 可靠性。闭源模型的分词器是「黑箱」，更新换代常伴随 token 密度变化。2026 年 4 月 Anthropic 发布 Opus 4.7 的同时更换底层分词器，采用更细粒度子词分割方案，官方文档披露同长度文本的 token 数量膨胀 1.0–1.35 倍；企业成本管理平台 Finout 对真实 prompt 的加权实测显示技术文档与英文密集代码文件平均膨胀 1.47 倍（+47%），开发者 Simon Willison 通过 API 比对发现同一系统提示词从 5,039 tokens 膨胀至 7,335 tokens（+46%），高分辨率图片膨胀倍数更高。

结语

Token 不经济并非单点现象，而是定价权结构、模型分层策略与智能体架构缺陷共同作用的结果。短期靠内控与技术优化能缓解压力，但要真正让 token 净收益转正，仍需在更广泛的产业场景中找到消耗与价值之间的平衡点。