桃子桃子 AI 快讯
返回首页
工具

Enki:AI 智能体长时记忆引擎,以约一半存储达成可比准确率

英国 Enki Labs 发布闭源 AI 智能体记忆引擎 Enki,在 LongMemEval-S 的 25 题小样本上…

2026.06.28 · 周日3 分钟阅读评分 37
评分细项加权总分 37
重要性
30
新颖性
55
影响面
22
可信度
38
实质性
48

英国 Enki Labs 于近日公开了一款面向大语言模型智能体的长时记忆引擎 Enki,并同步释出了其与开源记忆框架 mem0 的对比评测结果。Enki 为闭源项目,本次仅发布评估数据,引擎内部实现、配置与方法论未予披露。

产品定位

Enki 主打「为 LLM 智能体提供长期记忆」这一能力,目标是在智能体多轮、多会话场景下保留关键事实,并在后续问答中准确调用。其竞品参照对象为开源社区中较为主流的 mem0,二者被置于同一对话历史下进行检索效果对比。

与 mem0 的基准对比

评测基于公开基准 LongMemEval-S,控制变量包括:输入完全一致的对话历史、相同的检索答案生成模型(Claude Haiku)、相同的 LLM-as-judge 评分模型,以及相同的检索深度(K=10)。唯一变量是记忆层本身。

目前已验证的小样本量为 25 题,整体评测仍在进行中。结果如下:

  • 多会话推理(Multi-session reasoning):Enki 4 / 5,mem0 2 / 5
  • 知识更新(Knowledge update):Enki 3 / 5,mem0 3 / 5
  • 单会话-用户视角(Single-session, user):Enki 3 / 5,mem0 3 / 5
  • 单会话-助手视角(Single-session, assistant):Enki 2 / 5,mem0 2 / 5
  • 单会话-偏好(Single-session, preference):Enki 2 / 5,mem0 2 / 5
  • 合计:Enki 14 / 25,mem0 12 / 25

Enki Labs 也在存储效率上给出数字:在同一组对话上,Enki 回答所用的事实量平均为 138 条,而 mem0 为 283 条,前者约为后者的 0.49 倍。

检索延迟

引擎的检索性能在纯 CPU 环境下测得,事实库规模约 139 条,样本量 240 次:

  • 均值:7.6 毫秒
  • p50:6.1 毫秒
  • p95:11.9 毫秒
  • p99:13.0 毫秒

数据表明,在不依赖 GPU 的部署条件下,Enki 仍能保持毫秒级响应。

局限与待验证之处

Enki Labs 坦承,25 题的小样本量不足以支撑对整体差距(14 vs 12)的强结论,结果仍在大规模跑分中。作者给出的稳健描述是:在约一半存储占用下达成「可比」的答案准确率,并在多会话推理这一子类上具有较明显优势。

由于引擎本身闭源、对外仅公开结论性数据,第三方难以独立复现;完整方法论与逐题结果需向团队索取。这一局限在评估其工程价值时需要纳入考量。

信源