Google 双模齐发：Omni Flash 视频 API 上线，Nano Banana 2 Lite 4 秒出图

Google 近日通过 Gemini API 与 Google AI Studio 正式向开发者开放两款多模态模型：视频生成方向的 Gemini Omni Flash 与高速图像方向的 Nano Banana 2 Lite（又名 gemini-3.1-flash-lite-image）。两款模型均强调与 Gemini 生态深度融合，并支持串联使用，构成从图像到视频的端到端工作流。

Gemini Omni Flash：视频生成与编辑能力开放

Gemini Omni Flash 最早在 Google I/O 大会上亮相，将 Gemini 的多模态推理能力与视频生成、编辑深度结合。此次开放的核心能力包括：

对话式视频编辑：通过自然语言指令对视频进行修改与精修。
多模态参考：可同时组合图像、文本、视频输入，维持场景控制与一致性。
现实世界知识：调用 Gemini 在历史、生物、叙事等方面的知识构建视频。
文字与动作同步：通过提示词将文字与图形直接关联到视频动作。

定价方面，Omni Flash 每秒视频输出成本约 0.10 美元，与 Veo 3.1 Fast 持平。Google 也主动列出当前局限：仅支持 10 秒视频生成；不支持音频参考上传与场景扩展；API 最长支持 3 秒参考素材，但模型尚无法正确处理；场景切换与运镜时的人物一致性仍有改进空间。

Nano Banana 2 Lite：最快、最省钱的 Gemini 图像模型

Nano Banana 2 Lite 定位为对延迟极度敏感的实时图像生成场景，例如电商素材批量生成、广告创意迭代与自动化内容流水线。其核心卖点为：

出图速度约 4 秒，约为 Nano Banana 2 的五分之一。
单张 1K 图片成本约 0.034 美元（约合人民币两毛多），是 Nano Banana 2 的一半、Nano Banana Pro 的四分之一。

速度与价格双双下调的同时，Nano Banana 2 Lite 的生图与编辑能力并未明显缩水，文字渲染效果在基准测试中与 Grok 等模型处于同一水平线。Google 建议仍在使用初代 Nano Banana 的用户迁移至 Lite 版本。

图像与视频串联：3 个 Demo 应用

两款模型真正的价值在于串联使用。Google 展示了 3 个示例应用，体现从静态图像到动态视频的端到端流程：

Anywhere：用户上传自拍照，Nano Banana 2 Lite 将其置入多个地标景点，再由 Omni Flash 把静态图转化为动态短片。
Space Lift：上传房间照片，先用 Lite 生成不同装修风格方案，再由 Omni 生成电影级空间漫游视频。
Omni Product Studio：跨境电商场景下，给白底产品图生成多场景商品图，并自动转化为电商短视频。

战略意图：押注多模态落地

在业界普遍以 Coding 能力衡量模型水平的当下，Google 选择继续深耕多模态。从短期商业化角度看，这套模型组合可与 Stitch、Pixel 内置修图、NotebookLM 等 Google 自家产品形成联动，覆盖电商、装修、短视频等已有明确付费意愿的垂直场景。叠加 Android 生态分发能力，多模态业务路径相对清晰。

不过社区与开发者对 Gemini 3.5 Pro 的缺席仍在持续关注，多模态这张牌桌 Google 能否最终凑齐全部主力，仍有待后续产品节奏验证。