OceanBase 发布湖库一体 AI 数据库,面向 Agent 场景重构数据底座
OceanBase CTO 杨传辉发布湖库一体 AI 数据库,整合事务、分析、向量与 AI 计算,并引入多模表、Fork…
OceanBase 近日正式发布「湖库一体 AI 数据库」(OceanBase Lakebase),将库内实时事务能力与湖上开放存储、开放计算能力整合到同一套数据底座中,主打面向 AI Agent 时代的数据基础设施。该产品由 OceanBase CTO 杨传辉对外介绍,延续了其在分布式 OLTP、实时 OLAP、多模一体化方向上的演进路径。
设计出发点:数据库使用者从应用扩展到 Agent
杨传辉在介绍中指出,AI 正在同时改变三件事:数据库的使用者从应用扩展到 Agent;管理的数据从结构化数据扩展到多模态数据;承载的工作负载从事务和分析扩展到搜索、上下文工程与 AI 应用。
OceanBase 团队认为,AI 数据库并不是「传统数据库加几个 AI 函数」或「向量数据库补上 SQL」,而是要解决 AI 进入生产系统后的数据基础设施问题,包括多模态数据统一管理、离在线融合、Agent 实时获取可信上下文等。
核心架构:存算分离 + 多模表 + 开放计算
湖库一体 AI 数据库的架构可以拆为三层能力:
- 存算分离:数据存放在对象存储之上,计算层独立运行。Agent 负载具有突发性,存算分离支持计算层瞬时扩容、空闲时缩到零。
- 多模表:在关系列之外引入多模列与 AI 列,统一管理结构化、半结构化、非结构化数据以及向量、图、全文索引。LOB 支持行内存储、切片存对象存储或引用外部文件三种模式。
- AI 列:可视为表上的实时计算列,写入后自动触发 Embedding、打标等模型计算,并保持事务一致性——一批数据要么全部完成计算,要么全部失败。
上层计算除 SQL 引擎外,还支持 Spark 处理 PB 级 ETL、Daft on Ray 处理 AI 推理,使多套计算引擎共享同一份数据。
混合搜索与基准表现
OceanBase 团队将 AI 数据库中的基本查询模式定义为「混合搜索」,即在同一张表内同时完成关系过滤、全文搜索、向量搜索、图搜索及 AI 计算。其逻辑是先通过关系过滤缩小候选集,再进行向量与语义搜索,以降低推理成本。
公司公开的基准数据显示:
- 向量搜索:使用 HNSW 算法,在 768 维与 1536 维场景、同等召回率下,性能「远领先于」Milvus、Elasticsearch 与 pgvector(原文未给出具体倍数)。
- 混合搜索:在 MS MARCO 数据集上,性能相比 Elasticsearch 提升 30% 以上。
为 Agent 设计的能力:Fork Database 与逻辑表
为了让 Agent 进入生产系统,OceanBase 引入了两项关键机制:
- Fork Database:秒级创建完整数据库副本,即使 PB 级库也能在秒内完成,基于 Copy-on-Write 只占增量空间。配合 DIFF 与 MERGE,Agent 可在分支上自由试错,失败直接回滚。
- 逻辑表:将「千万 Agent × 几百行」的场景映射到底层同一张物理表,通过逻辑层抽象应对 Schema 爆炸问题。
杨传辉表示,传统数据库为「少库 + 海量数据」优化,Agent 场景则相反,需要在「独立环境」与「实例规模」两端同时解决。
上下文层:PowerMem 与 OSI 语义
在引擎与应用之间,OceanBase 增加了「上下文层」,分为两个部分:
- 数据上下文(OSI 语义层):基于 Ant-OSI 语义层标准设计,将指标、口径、原始数据、上下文图谱与本体层统一起来,主打「语义即代码」。
- 应用上下文(PowerMem):构建在 AI 数据库之上,记忆检索本身是一次结构化过滤 + 语义相似度的混合查询,并支持经验与技能的自进化。
OceanBase 给出的对比数据为:在同一轨迹、同一模型下,使用 AppWorld 公平蒸馏实验,seekdb M0 方案通过率 39%,对照方案 Hermes 22%;完成相同任务时 M0 平均 6.2 步,Hermes 10.4 步,整体 Token 消耗降低 32%。
小结
OceanBase 将湖库一体 AI 数据库的架构概括为三层:底层是湖库引擎(多模表 + 对象存储 + 多套计算引擎),中间是上下文层(数据上下文 + 应用上下文),上层是面向数据开发与数据分析的 Agent。官方认为,要让企业真正用好 AI,第一步是通过一体化的 AI 数据库把数据管起来,而湖库一体是面向 AI Agent 时代给出的具体答案。
