llama.cpp 个人分支新增循环检测采样器

一位开发者在 GitHub 上发布了自己对 llama.cpp 的实验性分支（fork），其中最核心的改动是新增了一个名为「loop detection sampler」的可组合采样器。该采样器由作者借助 Claude 协助完成，旨在解决大模型在推理时常见的「卡死」式重复输出问题。代码与说明已开源在 GitHub 仓库 ALange/llama.cpp 中。

问题背景

大语言模型在推理过程中有时会陷入重复循环，常见形式包括：

单 token 重复：连续输出「the the the the the」；
短句循环：反复出现「I think I think I think」；
段落级循环：每隔数十 token 就回到同一句话或同一段。

这类循环不仅浪费 token、降低输出质量，若不设置生成长度上限还会无限持续下去。

实现思路

新的 llama_sampler_init_loop_detect 采样器会实时监控生成的 token 流，识别出精确的重复周期，并在检测到循环时临时提高采样温度，借助随机性把模型「推」出循环。整套逻辑被作为独立采样器插入到 llama.cpp 的链式采样管线中，因此可以与其他采样器自由组合。

关键参数

该采样器提供四个 CLI 参数，便于按场景调优：

last_n（--loop-detect-last-n，默认 64）：滑动窗口大小，越大可识别越长的周期，设为 0 即关闭；
min_pattern_len（--loop-detect-min-pattern，默认 3）：最小周期 token 数，设为 1 可捕获单 token 重复（与 repeat-penalty 功能重叠）；
min_reps（--loop-detect-min-reps，默认 3）：触发前需要的完整重复次数，低于 2 会被内部钳位到 2；
temp_factor（--loop-detect-temp-factor，默认 0.0）：触发循环时使用的温度倍数，0.0 表示禁用，1.5–3.0 较为实用。

使用方式与调优建议

作者给出了三种典型用法：保守默认（temp_factor 2.0）、更激进的短循环捕获（min_pattern 1、min_reps 2），以及与 DRY 采样器叠加使用以形成「细粒度惩罚 + 全局提温」的双层防护。采样器同样支持 --sampler-seq 简写（字符 l）、llama-server 的 JSON API 以及 C API 的程序化调用。

如果采样器在正常输出中过于敏感，建议增大 min_pattern 与 min_reps、降低 temp_factor；若循环仍漏检，可减小 min_reps、扩大 last_n 或提高 temp_factor；在需要长文本连贯性的场景下，建议与 --dry-multiplier 0.8 配合使用，并将 min_reps 保持在 3 以上，以避免误伤诗歌、列表等刻意重复的格式。