Enki：AI 智能体长时记忆引擎，以约一半存储达成可比准确率

英国 Enki Labs 于近日公开了一款面向大语言模型智能体的长时记忆引擎 Enki，并同步释出了其与开源记忆框架 mem0 的对比评测结果。Enki 为闭源项目，本次仅发布评估数据，引擎内部实现、配置与方法论未予披露。

Enki 主打「为 LLM 智能体提供长期记忆」这一能力，目标是在智能体多轮、多会话场景下保留关键事实，并在后续问答中准确调用。其竞品参照对象为开源社区中较为主流的 mem0，二者被置于同一对话历史下进行检索效果对比。

评测基于公开基准 LongMemEval-S，控制变量包括：输入完全一致的对话历史、相同的检索答案生成模型（Claude Haiku）、相同的 LLM-as-judge 评分模型，以及相同的检索深度（K=10）。唯一变量是记忆层本身。

目前已验证的小样本量为 25 题，整体评测仍在进行中。结果如下：

Enki Labs 也在存储效率上给出数字：在同一组对话上，Enki 回答所用的事实量平均为 138 条，而 mem0 为 283 条，前者约为后者的 0.49 倍。

引擎的检索性能在纯 CPU 环境下测得，事实库规模约 139 条，样本量 240 次：

数据表明，在不依赖 GPU 的部署条件下，Enki 仍能保持毫秒级响应。

Enki Labs 坦承，25 题的小样本量不足以支撑对整体差距（14 vs 12）的强结论，结果仍在大规模跑分中。作者给出的稳健描述是：在约一半存储占用下达成「可比」的答案准确率，并在多会话推理这一子类上具有较明显优势。

由于引擎本身闭源、对外仅公开结论性数据，第三方难以独立复现；完整方法论与逐题结果需向团队索取。这一局限在评估其工程价值时需要纳入考量。