文章系统剖析主流大模型厂商的定价分层策略、次级模型价格地板抬升趋势,以及智能体架构的隐形消耗现象。
Token 消耗与实际产出不成比例的现象,正在大型科技公司内部集中爆发。微软在开放 Anthropic 旗下 Claude Code 仅 6 个月后即收回许可,将员工导向自家 Copilot CLI;Uber 用 4 个月耗尽 2026 年全年 AI 编程工具预算;亚马逊内部出现无意义的 token 消耗;Meta 悄然撤下鼓励员工刷量的 Tokenmaxxing 排行榜。这些案例共同指向一个被作者命名为「Token 不经济」的结构性问题:人人都在拥抱 AI,但尚未找到正确的姿势,企业只见越来越长的账单,未见对应的收益。
Token 不经济是内部管控不力、Token 使用回报有限、Agent 架构设计缺陷(Skill 重复调用、长程任务内耗、多智能体协同成本)多重因素叠加的产物。要让 token 净收益转正,既需从供给端压低单价,也需从需求端让消耗在产业场景中产生实际价值。
Anthropic 是闭源厂商中最早将编程识别为 token 变现核心场景的公司。开发者与企业技术团队对价格不敏感,更看重编码效率与质量,这为 token 溢价提供了空间。
自 2024 年初推出 Claude 3 系列起,Anthropic 率先采用旗舰-中端-轻量的立体产品组合:
精细分层使 Anthropic 能在每一价格带最大化利润提取。后续 Opus 4.5 大幅降价挤压竞品;新一代 Mythos Preview($25 / $125)在 Opus 之上再设超高端分层;同期发布的 Fable 5 以安全约束为差异点,采用 $10 / $50 定价,形成「能力分层、风险分层、定价分层」的三维策略,重新拿回溢价市场。这一策略的财务验证显著:Anthropic 年度经常性收入(ARR)从 2024 年底约 10 亿美元飙升至 2026 年 5 月约 450 亿美元。
OpenAI 早期将大量资源投入 Sora 等多模态项目,办公与编程场景表现相对靠后。意识到编程才是变现主战场后,OpenAI 一方面砍掉高消耗项目、聚焦编码与 Agent 能力,另一方面紧贴 Anthropic 搭建分层矩阵:
Google 受限于云服务、Workspace、搜索多线并行的生态结构,动作更谨慎。Gemini 1.5 Pro 在短 prompt(<128k)情形下输出百万 token 仅 5 美元,是同期 GPT-4o 的三分之一、Opus 3 的十五分之一;2026 年 2 月发布的 Gemini 3.1 Pro 输出价提升至 12 美元,仍显著低于同期 GPT 5.4 的 15 美元和 Opus 4.6/4.7 的 25 美元。Google 还在 Flash 之下增设 Flash-Lite,将调用价压至开源模型同等水位。备受关注的 Gemini 3.5 Pro 迟迟未发布,也折射出 Google 在性能、安全与生态适配之间的内部博弈。
旗舰拼性能、次级/轻量卷价格是市场惯常预期,但过去两年经济型 token 市场的价格中枢实际在悄然上移。
表面看这是红海:DeepSeek V3 以约 $0.27 / $1.10 切入,R1 以 $0.55 / $2.19 提供推理增强能力,GLM-4 Plus 以 $0.69 / $0.35 提供接近 GPT-4 级别能力,对价格敏感开发者极具吸引力。
但每代新品发布都伴随地板抬升:
根本原因在于经济型 token 消费量呈爆炸式增长:日常编码、文档处理、自动化流程大多由 Sonnet、mini、Flash 与开源模型承担,调用量激增远超旗舰模型。烧现金维持低价的游戏难以为继,厂商提价空间随之打开,竞争逻辑从「哪家更便宜」转向「哪家性价比更高」。整体看,token 市场正经历「高端定价格局固化、中端量价齐升、经济型跟随追涨」的全线抬升过程,下游使用者成本攀升是这一格局的直接结果。
模型推理需计算每个 token 与其他 token 的关系,上下文越长计算负担越重。Agent 架构天然放大长文本陷阱:智能体拆解问题、规划工具调用、读文件、检反馈、修改方案、循环往复,每步都可能把历史记录重新带入上下文,同一批信息被反复读取、反复计费。Salim 等人(2026)对 ChatDev 框架的分析显示,代码审查阶段消耗的 token 平均占总消耗的 39.5%,意味着近四成花费发生在 Agent 之间反复传递已有信息的过程中,而非真正生成新内容。
分词器决定同等参数量下模型的信息密度上限、有效上下文长度下限与边缘 case 可靠性。闭源模型的分词器是「黑箱」,更新换代常伴随 token 密度变化。2026 年 4 月 Anthropic 发布 Opus 4.7 的同时更换底层分词器,采用更细粒度子词分割方案,官方文档披露同长度文本的 token 数量膨胀 1.0–1.35 倍;企业成本管理平台 Finout 对真实 prompt 的加权实测显示技术文档与英文密集代码文件平均膨胀 1.47 倍(+47%),开发者 Simon Willison 通过 API 比对发现同一系统提示词从 5,039 tokens 膨胀至 7,335 tokens(+46%),高分辨率图片膨胀倍数更高。
Token 不经济并非单点现象,而是定价权结构、模型分层策略与智能体架构缺陷共同作用的结果。短期靠内控与技术优化能缓解压力,但要真正让 token 净收益转正,仍需在更广泛的产业场景中找到消耗与价值之间的平衡点。