桃子桃子 AI 快讯
返回首页
模型发布

Google 双模齐发:Omni Flash 视频 API 上线,Nano Banana 2 Lite 4 秒出图

Google 开放 Gemini Omni Flash 视频生成 API 与 Nano Banana 2 Lite 极速…

2026.07.01 · 周三4 分钟阅读

Google 近日通过 Gemini API 与 Google AI Studio 正式向开发者开放两款多模态模型:视频生成方向的 Gemini Omni Flash 与高速图像方向的 Nano Banana 2 Lite(又名 gemini-3.1-flash-lite-image)。两款模型均强调与 Gemini 生态深度融合,并支持串联使用,构成从图像到视频的端到端工作流。

Gemini Omni Flash:视频生成与编辑能力开放

Gemini Omni Flash 最早在 Google I/O 大会上亮相,将 Gemini 的多模态推理能力与视频生成、编辑深度结合。此次开放的核心能力包括:

  • 对话式视频编辑:通过自然语言指令对视频进行修改与精修。
  • 多模态参考:可同时组合图像、文本、视频输入,维持场景控制与一致性。
  • 现实世界知识:调用 Gemini 在历史、生物、叙事等方面的知识构建视频。
  • 文字与动作同步:通过提示词将文字与图形直接关联到视频动作。

定价方面,Omni Flash 每秒视频输出成本约 0.10 美元,与 Veo 3.1 Fast 持平。Google 也主动列出当前局限:仅支持 10 秒视频生成;不支持音频参考上传与场景扩展;API 最长支持 3 秒参考素材,但模型尚无法正确处理;场景切换与运镜时的人物一致性仍有改进空间。

Nano Banana 2 Lite:最快、最省钱的 Gemini 图像模型

Nano Banana 2 Lite 定位为对延迟极度敏感的实时图像生成场景,例如电商素材批量生成、广告创意迭代与自动化内容流水线。其核心卖点为:

  • 出图速度约 4 秒,约为 Nano Banana 2 的五分之一。
  • 单张 1K 图片成本约 0.034 美元(约合人民币两毛多),是 Nano Banana 2 的一半、Nano Banana Pro 的四分之一。

速度与价格双双下调的同时,Nano Banana 2 Lite 的生图与编辑能力并未明显缩水,文字渲染效果在基准测试中与 Grok 等模型处于同一水平线。Google 建议仍在使用初代 Nano Banana 的用户迁移至 Lite 版本。

图像与视频串联:3 个 Demo 应用

两款模型真正的价值在于串联使用。Google 展示了 3 个示例应用,体现从静态图像到动态视频的端到端流程:

  • Anywhere:用户上传自拍照,Nano Banana 2 Lite 将其置入多个地标景点,再由 Omni Flash 把静态图转化为动态短片。
  • Space Lift:上传房间照片,先用 Lite 生成不同装修风格方案,再由 Omni 生成电影级空间漫游视频。
  • Omni Product Studio:跨境电商场景下,给白底产品图生成多场景商品图,并自动转化为电商短视频。

战略意图:押注多模态落地

在业界普遍以 Coding 能力衡量模型水平的当下,Google 选择继续深耕多模态。从短期商业化角度看,这套模型组合可与 Stitch、Pixel 内置修图、NotebookLM 等 Google 自家产品形成联动,覆盖电商、装修、短视频等已有明确付费意愿的垂直场景。叠加 Android 生态分发能力,多模态业务路径相对清晰。

不过社区与开发者对 Gemini 3.5 Pro 的缺席仍在持续关注,多模态这张牌桌 Google 能否最终凑齐全部主力,仍有待后续产品节奏验证。

信源