谷歌首个原生多模态嵌入模型Gemini Embedding 2发布
创始人
2026-03-11 13:12:37
0

IT之家 3 月 11 日消息,北京时间今天凌晨,谷歌发布了全新 Gemini Embedding 2 模型。这是谷歌首个原生多模态嵌入模型,可以把文本、图像、视频和文档映射到同一个嵌入空间。

嵌入模型与生成式模型不同。Gemini 3 等生成式模型主要用于生成内容,而嵌入模型用于理解数据。嵌入模型会把文本、图像或视频转换为向量等数学形式,方便机器读取和分析。

通过语义搜索、分类和聚类等方式,此类模型可以理解语义关系,因此往往比传统关键词检索提供更准确、更具上下文的信息。

据IT之家了解,谷歌最早推出的 Embedding 模型只支持文本。Gemini Embedding 2 则支持文本、图像、视频、音频和文档,并能在 100 种语言中识别语义意图。

不同数据类型的处理限制如下:

  • 文本:上下文窗口最高 8192tokens
  • 图像:每次请求最多 6 张,支持 PNG 和 JPEG 格式
  • 视频:最多 120 秒输入,支持 MP4 和 MOV 格式
  • 音频:可直接处理音频数据,无需先进行转录
  • 文档:支持最多 6 页 PDF

谷歌在博客中表示,新模型可以简化复杂的数据处理流程,同时增强多模态应用能力。应用场景包括检索增强生成(RAG)、语义搜索、情感分析以及数据聚类

模型还可以在一次请求中同时接收“图像 + 文本”等类型的多种输入,从而分析不同媒体类型之间的关系。

谷歌举例说,在诉讼取证阶段,Gemini 嵌入模型可以帮助法律专业人士快速找到关键证据。测试结果显示,在数百万条记录中,多模态嵌入能够提升检索精度和召回率,同时改善图像与视频搜索效果。

Gemini Embeddings 2(gemini-embedding-2-preview)目前已经通过 Gemini API 和 Vertex AI 提供公开预览。与此同时,gemini-embedding-001 仍然可用于只处理文本的应用场景。

相关内容

热门资讯

黎总统称谈判必须确保“以色列结... 新华社贝鲁特6月23日电(记者曹昌浩)黎巴嫩总统奥恩23日表示,黎巴嫩政府不会接受任何低于“以色列结...
华为向左,字节向右:赛力斯的“... 在2026中国汽车重庆论坛上,赛力斯集团董事长张兴海大倒苦水,存储芯片涨了5倍,碳酸锂从8万涨到18...
平板首批:联想AI平板拯救者Y... IT之家 6 月 23 日消息,联想拯救者官方今日宣布,联想 AI 平板拯救者 Y700“平板首批”...
链博会聚焦数智赛道 四川向全球... 中新网北京6月23日电 (单鹏 吕杨)22日至26日,第四届中国国际供应链促进博览会(以下简称链博会...
我国首本英文数据期刊Data ... IT之家 6 月 23 日消息,据央视新闻,今天(6 月 23 日),我国首本英文数据期刊 Data...
2026十大新兴技术公布!完整... 6月23日至25日,2026年新领军者年会(夏季达沃斯论坛)在大连举行。论坛首日,世界经济论坛重磅发...
国产GIS企业梳理 自然资源与... 导语:基于国产GIS领域2026年行业白皮书及公开市场数据,评估维度建议涵盖技术自主性(权重30%)...
教培机构号码被标记高频电话?别... 教培机构号码被标记高频电话?别急着换号先排查平台! 教培机构在日常运营中,无论是课程回访还是招生拓客...
Claude要把Cowork塞... 新智元报道 【新智元导读】Claude把Cowork塞进手机,Codex钻进ChatGPT,两巨头...
追觅:“汽车CEO”离职传闻不... 针对网络流传的“追觅汽车CEO离职”“追觅高管离职”等消息,星辰未来发布声明回应称,原星辰未来BU负...