谷歌推出 Gemini Embedding2：原生多模态嵌入统一文本、图像与音视频语义空间-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

谷歌近日上线原生多模态嵌入模型 Gemini Embedding2。该模型可把文本、图片、视频、音频以及 PDF 文档统一投射到同一语义向量空间，旨在简化 AI 数据处理流程，提升多模态检索与理解能力。这意味着谷歌在嵌入技术上从单一文本表示迈入统一多模态语义建模的关键一步。

早在2025年7月，谷歌推出支持100多种语言的文本嵌入模型 gemini-embedding-001，并在 MTEB 多语言榜单上取得领先。本次发布的 Gemini Embedding2 仍基于 Gemini 架构，但能力进一步扩展：可同时处理文本、图像、视频、音频与 PDF 五种模态，并将其映射到统一向量空间，让不同媒体内容能直接做语义比较，无需切换多个模型或额外预处理。这对语义搜索、检索增强生成（RAG）、情感分析与数据聚类等应用价值显著。

在输入方面，新模型支持最长 8192 个文本 token，是上一代 2048 token 上限的四倍；单次请求最多可处理 6 张 PNG 或 JPEG 图片，视频时长最高120 秒，PDF 文档最多 6 页。值得一提的是，Gemini Embedding2 原生支持音频，无需先做语音转写，能减少传统转录带来的信息损失。同时，谷歌引入“交错输入”技术，允许在一次请求中混输多种模态，例如图像与文本说明联合输入，更好地捕捉不同媒体间的语义关系。

在架构上，模型继续采用 Matryoshka 表示学习（MRL），通过递进式信息结构实现向量维度的动态裁剪。默认嵌入维度为 3072，并提供 1536 与 768 等可选配置，方便开发者在检索效果与存储/带宽成本之间灵活取舍。

谷歌公布的基准结果显示，Gemini Embedding2 在文本、图像、视频与语音等任务上均表现领先。例如在文本—视频检索中，模型得分 68.8，高于 Amazon Nova2Multimodal Embeddings 的 60.3 和 Voyage Multimodal3.5 的 55.2；在文本—图像匹配任务中，得分为 93.4，也明显领先亚马逊模型的 84.0。

目前 Gemini Embedding2 已通过 Gemini API 与 Vertex AI 面向开发者开放，可与 LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB 及 Vector Search 等主流框架与向量数据库无缝对接。谷歌还提供交互式 Colab 笔记本与轻量级多模态语义搜索演示，便于快速上手与验证能力。

值得关注的是，多模态嵌入赛道正在升温。2 月下旬，AI 搜索引擎 Perplexity 开源了基于 MIT 许可的嵌入模型 pplx-embed-v1 与 pplx-embed-context-v1。虽然目前仅支持文本，但在 MTEB 检索基准上，其最大模型表现与阿里巴巴 Qwen3 嵌入相当，并一度超过谷歌的 gemini-embedding-001，同时具备更高的内存效率。随着统一多模态语义表征成为 AI 基础设施的重要方向，嵌入模型的竞争正从文本检索逐步拓展到跨媒体理解与数据基础设施层面。