Google 双模齐发:Omni Flash 视频 API 上线,Nano Banana 2 Lite 4 秒出图
Google 开放 Gemini Omni Flash 视频生成 API 与 Nano Banana 2 Lite 极速…
Google 近日通过 Gemini API 与 Google AI Studio 正式向开发者开放两款多模态模型:视频生成方向的 Gemini Omni Flash 与高速图像方向的 Nano Banana 2 Lite(又名 gemini-3.1-flash-lite-image)。两款模型均强调与 Gemini 生态深度融合,并支持串联使用,构成从图像到视频的端到端工作流。
Gemini Omni Flash:视频生成与编辑能力开放
Gemini Omni Flash 最早在 Google I/O 大会上亮相,将 Gemini 的多模态推理能力与视频生成、编辑深度结合。此次开放的核心能力包括:
- 对话式视频编辑:通过自然语言指令对视频进行修改与精修。
- 多模态参考:可同时组合图像、文本、视频输入,维持场景控制与一致性。
- 现实世界知识:调用 Gemini 在历史、生物、叙事等方面的知识构建视频。
- 文字与动作同步:通过提示词将文字与图形直接关联到视频动作。
定价方面,Omni Flash 每秒视频输出成本约 0.10 美元,与 Veo 3.1 Fast 持平。Google 也主动列出当前局限:仅支持 10 秒视频生成;不支持音频参考上传与场景扩展;API 最长支持 3 秒参考素材,但模型尚无法正确处理;场景切换与运镜时的人物一致性仍有改进空间。
Nano Banana 2 Lite:最快、最省钱的 Gemini 图像模型
Nano Banana 2 Lite 定位为对延迟极度敏感的实时图像生成场景,例如电商素材批量生成、广告创意迭代与自动化内容流水线。其核心卖点为:
- 出图速度约 4 秒,约为 Nano Banana 2 的五分之一。
- 单张 1K 图片成本约 0.034 美元(约合人民币两毛多),是 Nano Banana 2 的一半、Nano Banana Pro 的四分之一。
速度与价格双双下调的同时,Nano Banana 2 Lite 的生图与编辑能力并未明显缩水,文字渲染效果在基准测试中与 Grok 等模型处于同一水平线。Google 建议仍在使用初代 Nano Banana 的用户迁移至 Lite 版本。
图像与视频串联:3 个 Demo 应用
两款模型真正的价值在于串联使用。Google 展示了 3 个示例应用,体现从静态图像到动态视频的端到端流程:
- Anywhere:用户上传自拍照,Nano Banana 2 Lite 将其置入多个地标景点,再由 Omni Flash 把静态图转化为动态短片。
- Space Lift:上传房间照片,先用 Lite 生成不同装修风格方案,再由 Omni 生成电影级空间漫游视频。
- Omni Product Studio:跨境电商场景下,给白底产品图生成多场景商品图,并自动转化为电商短视频。
战略意图:押注多模态落地
在业界普遍以 Coding 能力衡量模型水平的当下,Google 选择继续深耕多模态。从短期商业化角度看,这套模型组合可与 Stitch、Pixel 内置修图、NotebookLM 等 Google 自家产品形成联动,覆盖电商、装修、短视频等已有明确付费意愿的垂直场景。叠加 Android 生态分发能力,多模态业务路径相对清晰。
不过社区与开发者对 Gemini 3.5 Pro 的缺席仍在持续关注,多模态这张牌桌 Google 能否最终凑齐全部主力,仍有待后续产品节奏验证。
