Fireworks AI 推出 GLM 5.2 Fast：同模型质量，推理速度提升

Fireworks AI 在 X 平台官方账号宣布，针对开发者社区关于推理速度的反馈，推出 GLM 5.2 Fast 速度优化版本。新版本在保持与 GLM 5.2 标准版相同模型质量与输出效果的前提下，将推理速度提升至每秒 140 token，开发者只需切换路由模型 ID 即可启用，无需额外配置。

核心变化：保留质量，显著提速

根据 Fireworks AI 的官方说明，GLM 5.2 Fast 与标准版采用同一模型权重，因此输出质量、风格一致性以及各项能力表现应当保持一致，主要差异体现在服务侧的推理优化与吞吐能力上。官方将新版本的速度指标明确为「140 tok/s」，相较标准版有显著提升，对于长文本生成、批量调用等高吞吐场景具有实际意义。

接入方式

开发者可通过 Fireworks AI 模型路由直接启用 GLM 5.2 Fast，使用以下模型 ID：

accounts/fireworks/routers/glm-5p2-fast

切换过程为「一键替换」式，即在现有调用中将标准版的模型标识替换为上述 Fast 版路由即可，其余请求参数保持不变。这意味着已有 GLM 5.2 集成经验的团队基本可以零迁移成本体验更快的响应。

适用场景与考量

速度优化版通常更适用于以下场景：

对响应延迟敏感的产品交互，例如对话型应用、实时生成界面
需要高吞吐的批量处理任务，如大规模内容改写、数据清洗
在成本敏感的场景下，更高的 token/秒有助于缩短整体任务时间

需要注意的是，如果业务对生成内容的稳定性、可复现性要求极高，建议在切换前对同一批输入进行对比测试，确认速度提升未引入质量波动。Fireworks AI 方面尚未公布 Fast 版与标准版在具体 benchmark 上的差异数据，开发者可参考其官方文档获取更多技术细节。