Databricks 峰会观察:数据层或成 AI 下一轮被重新定价的环节
参会者指出,模型与算力已被充分定价,AI 走向生产后,数据质量、实时性与治理将决定系统能力,Databricks 的 L…
在 2026 年 Databricks Data + AI Summit 之后,一个被反复提起的问题浮出水面:当 AI 真正进入生产环境,数据层在整个技术栈中会扮演什么角色?现场一位参会者给出的判断是:模型、算力都已先后被「重新定价」,而数据层是这一轮 AI 周期中定价最慢、也最被低估的部分,这一状况正在开始改变。
模型与算力已被定价,数据层仍欠账
作者回顾了过去几年 AI 栈的演变:算法层面的进步几乎每周可见,资本市场和云厂商也已把算力的价值充分体现在估值与价格上。唯独数据,一直没有完成被重新定价的过程,原因不是它不重要,而是「太难讲清楚,也更难修好」:
- 企业数据普遍存在混乱、分散、重复、过时的问题;
- 权限与业务语义在不同系统间难以对齐;
- 所谓「实时」往往仍是上一晚跑完的定时任务。
这些工作既不性感,也无法靠一场发布会解决。但当 AI 从演示走向生产,问题便再也无法回避。
模型在收敛,护城河回到数据
在与 OpenAI、Anthropic 等团队成员的交流中,作者反复听到一个共识:模型能力正在趋同,算力只要有钱基本可以买到,真正难以复制的层正在变成数据本身——它的质量、新鲜度、权限控制,以及被加工成可用上下文的效率。
这一判断在训练侧和推理侧同时成立。在模型公司内部,一次训练往往需要数天的数据准备,一旦上游字段脏污、批标注错误、过滤规则偏差,数天算力与等待时间会在「损失曲线飘移」被注意到之前就白白消耗。在 Agent 侧,这一问题以更运维化的方式呈现:
- Agent 失败的首要原因往往不是模型能力不足;
- 而是上下文错误:访问不到的记录、过期六小时的文档、静默变更的数据源,或成本过高的检索路径;
- 现场提到的一个案例中,一个团队因「陈旧上下文流水线」损失了近一周时间,模型本身并不差,但系统无法定位错误是哪个环节引入的。
Databricks 的方向:把数据库扩展为事实、状态与治理的底座
在峰会现场,作者认为 Databricks 值得认真看待,原因有两个:
- 工程文化仍在:创始团队仍然站在台上谈执行引擎、事务、实时分析以及产品下层的管道设计,能感受到产品与工程直觉仍处公司核心;
- 客户在谈生产:与会用户讨论的不是把 AI 当作演示层,而是把它推入生产系统——Agent 需要读写业务状态、实时分析不愿再为数据搬运交税、流水线需要更自主、Agent 行为需要运行时治理。
基于这一背景,作者认为 Lakebase、Lakehouse//RT、数据 Agent 与 AI 治理等产品发布的方向比名称本身更重要:把事务能力拉近数据湖,把实时分析拉回统一数据底座,让流水线更自动化,并把治理从「谁能看这份数据」扩展到「这个 Agent 在这一步被允许做什么」。
尚未画完的地图
作者最后指出,数据库的边界正在扩展——它不再只是存储与查询数据的地方,而正在成为事实、状态、语义、治理与行动的统一底座。Databricks 的方向并不算走错,但架构的最终形态仍未确定。原文在讨论以 Postgres 为入口的取舍时中断,遗留了若干未展开的问题,包括:
- 传统关系型内核能否原生承载事务、内存、向量、多模态、追溯、分支、回滚与细粒度租户隔离;
- 把 Postgres 拉近对象存储后,缓存层的激进程度与一致性如何权衡;
- Agent 频繁创建短生命周期数据库、分叉状态、生成 trace 后退出的工作负载,是否能由现有架构直接承接。
这些尚未回答的问题,本身也是数据层「重新定价」过程中必须迈过的关卡。
