Gemini Omni 正式发布，Google 把多模态视频生成纳入 Gemini 体系Google 在 I/O 2026 期间发布 Gemini Omni，定位为新的多模态生成模型家族，首发模型是 Gemini Omni Flash

a day ago

Gemini Omni 正式发布，Google 把多模态视频生成纳入 Gemini 体系

Google 在 I/O 2026 期间发布 Gemini Omni，定位为新的多模态生成模型家族，首发模型是 Gemini Omni Flash。该模型以视频为起点，支持混合文本、图片、音频和视频作为输入，生成带音频的高分辨率视频，并可通过对话继续修改画面、动作、角色和风格。

与传统“文字生成视频”工具相比，Gemini Omni 的重点是从现有素材出发进行重构和编辑。Google 称其可在连续编辑中保持角色、物理关系和场景上下文，并将 Gemini 的现实世界知识引入视频生成，使结果不只追求视觉真实，也更强调叙事和语义一致性。

deepmind