Hierarchos:232M 循环记忆增强模型的初步实验
小型开源项目公布 232M 参数的 RWKV + 记忆 + 分层循环混合模型,benchmark 仅达 GPT-2 时代…
一个名为 Hierarchos 的小型研究项目近日发布了 232M 参数循环记忆增强语言模型的初步技术报告。该模型并非主流 Transformer 路线,而是将 RWKV 式循环、类 Titans 神经长期记忆、HRM 风格分层 Manager/Worker 循环以及确定性后缀自动机(ROSA)组合在一起。项目明确表示,模型能力仅与 GPT-2 时代相当,距离 GPT-3.5 及以上系统仍有明显差距,但工程上验证了「混合非 Transformer 架构可以稳定训练、避免坍塌、维持短指令一致性」这一命题。
模型架构概览
Hierarchos 的信息流为:token 输入先经过 ROSA 后缀匹配器与 DeepEmbed 调制器,再进入长期记忆(LTM)子系统与 Top-k 联想检索,随后由 Manager 循环单元生成「上下文计划」与「漂移向量」,再由 Worker 循环单元精化局部状态并钳制漂移,最终送入带钳位的 RWKV 主干(Clamped Channel-Mix)得到下一个 token 的 logits。
其中:
- ROSA:基于精确重复后缀模式预测续接 token 的确定性后缀自动机路径。
- DeepEmbed:按 token 调节 RWKV 通道混合的调制路径。
- LTM:学习得到的慢速记忆键/值与快速工作记忆值的组合。
- Manager/Worker:高层 Manager 输出目标计划,低层 Worker 用正则化漂移向量精化 token 级局部状态。
核心工程经验
项目团队强调,低训练损失并不等于对话可用,他们在三个「状态契约」与数值稳定性问题上花了大量精力。
- 对话/训练漂移失配:实时流式对话时,循环把前一个漂移状态每 token 回灌到模型;而训练时该状态会在 TBPTT 切分边界重置。修复方法是对齐推理代码、仅在边界处重置,修复后 logits 误差降至接近 0。
- 监督式 LTM 内部更新失配:训练时给模型监督式记忆更新,但推理时无法复现,造成「拐杖信号」。v0.20.4 起加入
--ltm-training-mode read-only,训练中只保留记忆结构、停止监督式快速写入,与推理完全对齐。 - RWKV 通道混合无界:长序列下 ReLU² 通道混合路径出现激活尖峰,经 DeepEmbed 调制放大为 NaN 梯度。修复方式是加入
--rwkv-channel-mix-key-clamp 12.0、--deepembed-clamp 4.0,并把 DeepEmbed 恒等门从 AdamW 权重衰减中排除。
评测与冒烟测试
受云端成本限制,团队在 ROG Ally 上以 CPU preset(--eval-limit 100)跑了一组「有界本地基准」,结果如下:
- ARC Easy:acc 0.3600,acc_norm 0.3200
- HellaSwag:acc 0.3400,acc_norm 0.3700
- TruthfulQA MC1:acc 0.2200
定性观察显示,模型在 Alpaca 风格短指令上形态良好,具备一定常识与 QA 信号,权重未坍塌;但在长上下文上表现脆弱,算术与事实回忆能力弱,整体一致性处于 GPT-2 时代水平。
后续消融与扩展计划
团队提出要通过消融实验分离各组件的真实贡献:
- 关闭 LTM / 改为只读 LTM,量化 slot 记忆收益。
- 关闭 ROSA / 关闭 DeepEmbed,评估后缀匹配与调制的 token 效率。
- 训练同 token 预算下的 Transformer 232M 与 RWKV-only 232M,作为架构对比基线。
扩展目标分三档:Scout 阶段 300M–500M 参数、20B–50B token;Real v1 阶段 1B–1.5B 参数、100B–300B token;Serious 阶段 3B 参数、600B–1.5T token。数据上则倾向于以 FineWeb/FineWeb-Edu 类干净网页文本(35–50%)为主,再叠加指令 SFT。
训练资源方面,整个 13 epoch 实验在一张租用的 RTX 6000 Blackwell(96GB)上完成,数据集为作者在 Hugging Face 发布的 netcat420/Experiment_0.1(Alpaca 格式)。报告整体定位为「能跑通、不坍塌」的原型验证,而非具备竞争力的开源替代方案。
