Google 发布 Gemini Embedding 2

Google 于 2026 年 3 月 10 日发布首个原生多模态嵌入模型 Gemini Embedding 2。目前该模型以 Public Preview 形式通过 Gemini API 和 Vertex AI 提供。从能力范围看,Gemini Embedding 2 可将文本、图像、视频、音频和 PDF 映射到统一向量空间,主要面向多模态检索、分类和语义搜索等场景。Google 官方还表示,该模型支持 100 多种语言。

Google 表示,Gemini Embedding 2 还支持交错式多模态输入,也就是在一次请求中同时输入多种媒体内容,以更好地捕捉它们之间的语义关系。产品层面上,这意味着开发者在构建 RAG、语义搜索、情感分析和数据聚类等系统时,可以减少原本分散的多模态处理流程。Gemini Embedding 2 支持最长 8192 token 的文本输入、最多 6 张图片、最长 120 秒的视频,以及最长 6 页的 PDF 文档。Google 同时延续了可伸缩输出维度设计,建议使用 3072、1536 或 768 维,以在效果和存储成本之间做权衡。

Google
 
 
Back to Top