Step 3.7 Flash 长推理卡顿问题或在 llama.cpp 中得到修复

近日，llama.cpp 项目提交了编号为 #25238 的拉取请求（PR），着手修复阶跃星辰（StepFun）Step 3.7 Flash 模型在长推理场景下表现迟缓的问题。根据 PR 描述，开发团队在排查后认定，此前对输入文本进行截断的处理方式是导致推理速度下降的根因，修复方向改为不再对输入做不当裁剪。

问题背景

Step 3.7 Flash 是阶跃星辰推出的大语言模型，主打高效推理。该模型在 llama.cpp 等本地推理框架上运行时，社区用户反馈其长文本推理速度明显偏慢，影响实际可用性。有用户表示，目前仍以 Step 3.5 Flash 作为主力，本次的 3.7 版本「还没法用」。

修复思路

PR #25238 的核心改动在于调整输入预处理逻辑，放弃此前会丢弃部分上下文内容的「trimming」做法。维护者明确表示「trimming the input was the wrong thing to do」，即截断输入本身是错误的策略。该修复一旦合入主干，Step 3.7 Flash 在长上下文推理场景下的响应速度有望显著改善。

社区期待

帖子作者对该修复持谨慎乐观态度，表示「Fingers crossed」，希望模型能够尽快变得真正可用。对于在本地部署大模型的开发者而言，这类底层工具链的修复往往能直接决定一款模型的体验上限。后续是否会有更多性能相关的更新，以及修复后的实际表现如何，仍需关注 PR 的合入进展与社区测试反馈。