Sand.ai 完成超亿美元融资，将于 Q3 开源 MoE 架构视频大模型

视频生成模型公司 Sand.ai 近日完成两轮合计超亿美元融资，投资方包括 Look Capital、王慧文家办 Lollapalooza Capital、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等，星涵资本担任财务顾问。创始人曹越同步披露，公司将于 2026 年 Q3 发布基于 MoE 架构的新一代视频生成模型，并将其开源。

三代模型的三次「非共识」押注

Sand.ai 成立于 2024 年 1 月，核心判断一直围绕「视频是通往世界模型最重要的路径」展开。曹越将公司的技术演进划分为三次押注：

自回归路线：在市场普遍押注 Diffusion 的背景下，Sand.ai 从第一天起就选择自回归作为视频数据的建模方式。其 Magi-1 模型在 Google DeepMind 提出的 Physics-IQ 物理真实性测试中长期保持第一，超越 Nvidia Cosmos3-Super 与 Sora-2 等 Diffusion 系模型。
音画同出：Magi-1 发布后，团队意识到仅有画面不足以逼近真实世界状态，于 2025 年 5 月开始探索音画同出，是除 Google Veo-3 之外最早拿出该能力的团队。后续推出的 Gaga-1 将声音与画面在同一架构内联合生成。
MoE 架构：Gaga-1 发布后，曹越判断 Dense 架构继续 Scale Up 时成本将急剧上升——推理成本至少贵 3 到 5 倍。视频领域存在「成本、速度、效果」的不可能三角，突破只能依赖研究手段，MoE 是关键答案。

新一代模型：MoE + 全面融合

曹越透露，2025 年 11 月 Sand.ai 已开始将架构从 Dense 转向 MoE，当时国内几乎无视频公司全力推进这一方向。视频 MoE 相比语言模型 MoE 挑战更大：Token 序列更长、冗余度更高，通信开销、负载均衡与训练稳定性问题均被放大。团队在架构上做了多项创新，首次实现了超大规模视频 MoE 模型的稳定训练。

新一代模型预计 2026 年 7 月发布，将把三代模型积累的能力汇于一身：

采用 MoE 架构，兼顾高效推理与目前开源领域最大的参数规模；
融合通用场景生成、音画同出、多镜头叙事、多参考生成等能力；
目标是在每个维度都达到 SOTA，并将权重开源。

世界模型仍在「前 GPT 时代」

围绕 2026 年最热的 AI 概念之一「世界模型」，曹越的判断是它仍处于 GPT-1 出现之前的阶段——数据不够、定义不清、技术路线远未收敛。他认为真正的世界模型应该预测「世界本身给你的原始观测」，而非人为定义的隐藏状态，LLM 时代 predict next token 最终胜过各种显式表征方案即是教训。

视频之所以被视作关键路径，核心原因在于：

视频是规模最大的世界观测数据类型，同时编码时间、空间、视觉与听觉；
信息密度最高、维度最丰富，是 4D 物理世界经摄像头投影后的结构化切片；
视频的演进天然对应从图像生成到实时交互的认知跃迁。

模型与产品双轮驱动

在产品侧，Sand.ai 已落子数字人、视频 Agent 等方向。今年 1 月上线的音乐 Agent 产品 VidMuse 仅用两三个月就做到约 1000 万美元 ARR，验证了 Agent 方向的商业化可行性。

曹越强调，视频赛道很难仅靠卖 API 立足，必须模型与产品双轮驱动。模型每解锁一项能力（如多镜头、音画同出），产品侧就少搭一层脚手架；反过来，产品端收集到的用户偏好数据又能反哺模型后训练，形成闭环。他将这种打法总结为「以模型为核心的多产品矩阵」。

对于「模型公司要不要做应用」的争论，曹越的回应是：创业公司如果没有训练 SOTA 模型的能力，很容易被模型厂商整合；但反过来，纯产品公司在算力与数据红利的窗口期也很难独立长大。模型与产品之间的「夹角」，在大厂内部更难调和，在创业公司反而更易通过 Founder Mode 化解。

三代模型的三次「非共识」押注

Sand.ai 成立于 2024 年 1 月，核心判断一直围绕「视频是通往世界模型最重要的路径」展开。曹越将公司的技术演进划分为三次押注：

自回归路线：在市场普遍押注 Diffusion 的背景下，Sand.ai 从第一天起就选择自回归作为视频数据的建模方式。其 Magi-1 模型在 Google DeepMind 提出的 Physics-IQ 物理真实性测试中长期保持第一，超越 Nvidia Cosmos3-Super 与 Sora-2 等 Diffusion 系模型。

音画同出：Magi-1 发布后，团队意识到仅有画面不足以逼近真实世界状态，于 2025 年 5 月开始探索音画同出，是除 Google Veo-3 之外最早拿出该能力的团队。后续推出的 Gaga-1 将声音与画面在同一架构内联合生成。

MoE 架构：Gaga-1 发布后，曹越判断 Dense 架构继续 Scale Up 时成本将急剧上升——推理成本至少贵 3 到 5 倍。视频领域存在「成本、速度、效果」的不可能三角，突破只能依赖研究手段，MoE 是关键答案。

新一代模型：MoE + 全面融合

新一代模型预计 2026 年 7 月发布，将把三代模型积累的能力汇于一身：

采用 MoE 架构，兼顾高效推理与目前开源领域最大的参数规模；

融合通用场景生成、音画同出、多镜头叙事、多参考生成等能力；

目标是在每个维度都达到 SOTA，并将权重开源。

世界模型仍在「前 GPT 时代」

视频之所以被视作关键路径，核心原因在于：

视频是规模最大的世界观测数据类型，同时编码时间、空间、视觉与听觉；

信息密度最高、维度最丰富，是 4D 物理世界经摄像头投影后的结构化切片；

视频的演进天然对应从图像生成到实时交互的认知跃迁。

模型与产品双轮驱动