桃子桃子快讯
返回首页
开源

Step 3.7 Flash 长推理卡顿问题或在 llama.cpp 中得到修复

llama.cpp 提交 PR#25238,指出此前对输入做截断是导致阶跃 Step 3.7 Flash 长推理缓慢的原…

2026.07.03 · 周五2 分钟阅读

近日,llama.cpp 项目提交了编号为 #25238 的拉取请求(PR),着手修复阶跃星辰(StepFun)Step 3.7 Flash 模型在长推理场景下表现迟缓的问题。根据 PR 描述,开发团队在排查后认定,此前对输入文本进行截断的处理方式是导致推理速度下降的根因,修复方向改为不再对输入做不当裁剪。

问题背景

Step 3.7 Flash 是阶跃星辰推出的大语言模型,主打高效推理。该模型在 llama.cpp 等本地推理框架上运行时,社区用户反馈其长文本推理速度明显偏慢,影响实际可用性。有用户表示,目前仍以 Step 3.5 Flash 作为主力,本次的 3.7 版本「还没法用」。

修复思路

PR #25238 的核心改动在于调整输入预处理逻辑,放弃此前会丢弃部分上下文内容的「trimming」做法。维护者明确表示「trimming the input was the wrong thing to do」,即截断输入本身是错误的策略。该修复一旦合入主干,Step 3.7 Flash 在长上下文推理场景下的响应速度有望显著改善。

社区期待

帖子作者对该修复持谨慎乐观态度,表示「Fingers crossed」,希望模型能够尽快变得真正可用。对于在本地部署大模型的开发者而言,这类底层工具链的修复往往能直接决定一款模型的体验上限。后续是否会有更多性能相关的更新,以及修复后的实际表现如何,仍需关注 PR 的合入进展与社区测试反馈。

信源