Hierarchos：232M 循环记忆增强模型的初步实验

一个名为 Hierarchos 的小型研究项目近日发布了 232M 参数循环记忆增强语言模型的初步技术报告。该模型并非主流 Transformer 路线，而是将 RWKV 式循环、类 Titans 神经长期记忆、HRM 风格分层 Manager/Worker 循环以及确定性后缀自动机（ROSA）组合在一起。项目明确表示，模型能力仅与 GPT-2 时代相当，距离 GPT-3.5 及以上系统仍有明显差距，但工程上验证了「混合非 Transformer 架构可以稳定训练、避免坍塌、维持短指令一致性」这一命题。

模型架构概览

Hierarchos 的信息流为：token 输入先经过 ROSA 后缀匹配器与 DeepEmbed 调制器，再进入长期记忆（LTM）子系统与 Top-k 联想检索，随后由 Manager 循环单元生成「上下文计划」与「漂移向量」，再由 Worker 循环单元精化局部状态并钳制漂移，最终送入带钳位的 RWKV 主干（Clamped Channel-Mix）得到下一个 token 的 logits。

其中：

ROSA：基于精确重复后缀模式预测续接 token 的确定性后缀自动机路径。
DeepEmbed：按 token 调节 RWKV 通道混合的调制路径。
LTM：学习得到的慢速记忆键/值与快速工作记忆值的组合。
Manager/Worker：高层 Manager 输出目标计划，低层 Worker 用正则化漂移向量精化 token 级局部状态。

核心工程经验

项目团队强调，低训练损失并不等于对话可用，他们在三个「状态契约」与数值稳定性问题上花了大量精力。

对话/训练漂移失配：实时流式对话时，循环把前一个漂移状态每 token 回灌到模型；而训练时该状态会在 TBPTT 切分边界重置。修复方法是对齐推理代码、仅在边界处重置，修复后 logits 误差降至接近 0。
监督式 LTM 内部更新失配：训练时给模型监督式记忆更新，但推理时无法复现，造成「拐杖信号」。v0.20.4 起加入 --ltm-training-mode read-only，训练中只保留记忆结构、停止监督式快速写入，与推理完全对齐。
RWKV 通道混合无界：长序列下 ReLU² 通道混合路径出现激活尖峰，经 DeepEmbed 调制放大为 NaN 梯度。修复方式是加入 --rwkv-channel-mix-key-clamp 12.0、--deepembed-clamp 4.0，并把 DeepEmbed 恒等门从 AdamW 权重衰减中排除。

评测与冒烟测试

受云端成本限制，团队在 ROG Ally 上以 CPU preset（--eval-limit 100）跑了一组「有界本地基准」，结果如下：

ARC Easy：acc 0.3600，acc_norm 0.3200
HellaSwag：acc 0.3400，acc_norm 0.3700
TruthfulQA MC1：acc 0.2200

定性观察显示，模型在 Alpaca 风格短指令上形态良好，具备一定常识与 QA 信号，权重未坍塌；但在长上下文上表现脆弱，算术与事实回忆能力弱，整体一致性处于 GPT-2 时代水平。

后续消融与扩展计划

团队提出要通过消融实验分离各组件的真实贡献：

关闭 LTM / 改为只读 LTM，量化 slot 记忆收益。
关闭 ROSA / 关闭 DeepEmbed，评估后缀匹配与调制的 token 效率。
训练同 token 预算下的 Transformer 232M 与 RWKV-only 232M，作为架构对比基线。

扩展目标分三档：Scout 阶段 300M–500M 参数、20B–50B token；Real v1 阶段 1B–1.5B 参数、100B–300B token；Serious 阶段 3B 参数、600B–1.5T token。数据上则倾向于以 FineWeb/FineWeb-Edu 类干净网页文本（35–50%）为主，再叠加指令 SFT。

训练资源方面，整个 13 epoch 实验在一张租用的 RTX 6000 Blackwell（96GB）上完成，数据集为作者在 Hugging Face 发布的 netcat420/Experiment_0.1（Alpaca 格式）。报告整体定位为「能跑通、不坍塌」的原型验证，而非具备竞争力的开源替代方案。