Gemini Omni 正式发布,Google 把多模态视频生成纳入 Gemini 体系
Google 在 I/O 2026 期间发布 Gemini Omni,定位为新的多模态生成模型家族,首发模型是 Gemini Omni Flash。该模型以视频为起点,支持混合文本、图片、音频和视频作为输入,生成带音频的高分辨率视频,并可通过对话继续修改画面、动作、角色和风格。
与传统“文字生成视频”工具相比,Gemini Omni 的重点是从现有素材出发进行重构和编辑。Google 称其可在连续编辑中保持角色、物理关系和场景上下文,并将 Gemini 的现实世界知识引入视频生成,使结果不只追求视觉真实,也更强调叙事和语义一致性。
deepmind
Google 在 I/O 2026 期间发布 Gemini Omni,定位为新的多模态生成模型家族,首发模型是 Gemini Omni Flash。该模型以视频为起点,支持混合文本、图片、音频和视频作为输入,生成带音频的高分辨率视频,并可通过对话继续修改画面、动作、角色和风格。
与传统“文字生成视频”工具相比,Gemini Omni 的重点是从现有素材出发进行重构和编辑。Google 称其可在连续编辑中保持角色、物理关系和场景上下文,并将 Gemini 的现实世界知识引入视频生成,使结果不只追求视觉真实,也更强调叙事和语义一致性。
deepmind