视频生成公司 Sand.ai 完成两轮合计超亿美元融资,创始人曹越披露将于 2026 年 Q3 开源基于 MoE 架构的…
视频生成模型公司 Sand.ai 近日完成两轮合计超亿美元融资,投资方包括 Look Capital、王慧文家办 Lollapalooza Capital、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等,星涵资本担任财务顾问。创始人曹越同步披露,公司将于 2026 年 Q3 发布基于 MoE 架构的新一代视频生成模型,并将其开源。
Sand.ai 成立于 2024 年 1 月,核心判断一直围绕「视频是通往世界模型最重要的路径」展开。曹越将公司的技术演进划分为三次押注:
曹越透露,2025 年 11 月 Sand.ai 已开始将架构从 Dense 转向 MoE,当时国内几乎无视频公司全力推进这一方向。视频 MoE 相比语言模型 MoE 挑战更大:Token 序列更长、冗余度更高,通信开销、负载均衡与训练稳定性问题均被放大。团队在架构上做了多项创新,首次实现了超大规模视频 MoE 模型的稳定训练。
新一代模型预计 2026 年 7 月发布,将把三代模型积累的能力汇于一身:
围绕 2026 年最热的 AI 概念之一「世界模型」,曹越的判断是它仍处于 GPT-1 出现之前的阶段——数据不够、定义不清、技术路线远未收敛。他认为真正的世界模型应该预测「世界本身给你的原始观测」,而非人为定义的隐藏状态,LLM 时代 predict next token 最终胜过各种显式表征方案即是教训。
视频之所以被视作关键路径,核心原因在于:
在产品侧,Sand.ai 已落子数字人、视频 Agent 等方向。今年 1 月上线的音乐 Agent 产品 VidMuse 仅用两三个月就做到约 1000 万美元 ARR,验证了 Agent 方向的商业化可行性。
曹越强调,视频赛道很难仅靠卖 API 立足,必须模型与产品双轮驱动。模型每解锁一项能力(如多镜头、音画同出),产品侧就少搭一层脚手架;反过来,产品端收集到的用户偏好数据又能反哺模型后训练,形成闭环。他将这种打法总结为「以模型为核心的多产品矩阵」。
对于「模型公司要不要做应用」的争论,曹越的回应是:创业公司如果没有训练 SOTA 模型的能力,很容易被模型厂商整合;但反过来,纯产品公司在算力与数据红利的窗口期也很难独立长大。模型与产品之间的「夹角」,在大厂内部更难调和,在创业公司反而更易通过 Founder Mode 化解。