产品功能
Fireworks AI 推出 GLM 5.2 Fast:同模型质量,推理速度提升
Fireworks AI 发布 GLM 5.2 Fast 速度升级版,输出速率达每秒 140 token,模型质量与标准…
2026.07.01 · 周三约 2 分钟阅读
Fireworks AI 在 X 平台官方账号宣布,针对开发者社区关于推理速度的反馈,推出 GLM 5.2 Fast 速度优化版本。新版本在保持与 GLM 5.2 标准版相同模型质量与输出效果的前提下,将推理速度提升至每秒 140 token,开发者只需切换路由模型 ID 即可启用,无需额外配置。
核心变化:保留质量,显著提速
根据 Fireworks AI 的官方说明,GLM 5.2 Fast 与标准版采用同一模型权重,因此输出质量、风格一致性以及各项能力表现应当保持一致,主要差异体现在服务侧的推理优化与吞吐能力上。官方将新版本的速度指标明确为「140 tok/s」,相较标准版有显著提升,对于长文本生成、批量调用等高吞吐场景具有实际意义。
接入方式
开发者可通过 Fireworks AI 模型路由直接启用 GLM 5.2 Fast,使用以下模型 ID:
- accounts/fireworks/routers/glm-5p2-fast
切换过程为「一键替换」式,即在现有调用中将标准版的模型标识替换为上述 Fast 版路由即可,其余请求参数保持不变。这意味着已有 GLM 5.2 集成经验的团队基本可以零迁移成本体验更快的响应。
适用场景与考量
速度优化版通常更适用于以下场景:
- 对响应延迟敏感的产品交互,例如对话型应用、实时生成界面
- 需要高吞吐的批量处理任务,如大规模内容改写、数据清洗
- 在成本敏感的场景下,更高的 token/秒有助于缩短整体任务时间
需要注意的是,如果业务对生成内容的稳定性、可复现性要求极高,建议在切换前对同一批输入进行对比测试,确认速度提升未引入质量波动。Fireworks AI 方面尚未公布 Fast 版与标准版在具体 benchmark 上的差异数据,开发者可参考其官方文档获取更多技术细节。
