谷歌首个原生多模态嵌入模型Gemini Embedding 2发布
创始人
2026-03-11 13:12:37
0

IT之家 3 月 11 日消息,北京时间今天凌晨,谷歌发布了全新 Gemini Embedding 2 模型。这是谷歌首个原生多模态嵌入模型,可以把文本、图像、视频和文档映射到同一个嵌入空间。

嵌入模型与生成式模型不同。Gemini 3 等生成式模型主要用于生成内容,而嵌入模型用于理解数据。嵌入模型会把文本、图像或视频转换为向量等数学形式,方便机器读取和分析。

通过语义搜索、分类和聚类等方式,此类模型可以理解语义关系,因此往往比传统关键词检索提供更准确、更具上下文的信息。

据IT之家了解,谷歌最早推出的 Embedding 模型只支持文本。Gemini Embedding 2 则支持文本、图像、视频、音频和文档,并能在 100 种语言中识别语义意图。

不同数据类型的处理限制如下:

  • 文本:上下文窗口最高 8192tokens
  • 图像:每次请求最多 6 张,支持 PNG 和 JPEG 格式
  • 视频:最多 120 秒输入,支持 MP4 和 MOV 格式
  • 音频:可直接处理音频数据,无需先进行转录
  • 文档:支持最多 6 页 PDF

谷歌在博客中表示,新模型可以简化复杂的数据处理流程,同时增强多模态应用能力。应用场景包括检索增强生成(RAG)、语义搜索、情感分析以及数据聚类

模型还可以在一次请求中同时接收“图像 + 文本”等类型的多种输入,从而分析不同媒体类型之间的关系。

谷歌举例说,在诉讼取证阶段,Gemini 嵌入模型可以帮助法律专业人士快速找到关键证据。测试结果显示,在数百万条记录中,多模态嵌入能够提升检索精度和召回率,同时改善图像与视频搜索效果。

Gemini Embeddings 2(gemini-embedding-2-preview)目前已经通过 Gemini API 和 Vertex AI 提供公开预览。与此同时,gemini-embedding-001 仍然可用于只处理文本的应用场景。

相关内容

热门资讯

鲁比奥和其他G7外长们互喷,德... 【文/观察者网 阮佳琪】美国想要欧洲力挺伊朗战局,欧洲则盯着华盛顿的对乌承诺。这场道不同不相为谋,让...
伊朗外长:造成175人死亡的小... 据凤凰卫视报道,联合国人权理事会3月27日就伊朗南部米纳卜市一所小学遭袭事件举行紧急辩论。伊朗外长阿...
德黑兰整栋民居被摧毁,民众质问... 据凤凰卫视报道,德黑兰南部雷伊一处民居3月27日凌晨4点许,遭导弹袭击,整栋房屋被完全摧毁。当地住宅...
以军:已空袭伊朗阿拉克重水反应... △资料图当地时间27日,以色列国防军表示,已对伊朗阿拉克重水反应堆实施空袭,称打击目标为“用于生产核...
伊朗外长与俄罗斯外长通话,谴责... 当地时间27日,伊朗外长阿拉格齐与俄罗斯外长拉夫罗夫通电话。双方就地区局势进行了讨论,谴责美国和以色...
伊朗官员称考虑退出《不扩散核武... 当地时间3月27日,伊朗议会国家安全与外交政策委员会发言人易卜拉欣·雷扎伊在社交媒体上发文表示,伊朗...
鲁比奥:对伊朗战事还将持续2到... 新华社巴黎3月27日电(记者乔本孝)正在法国参加七国集团外长会的美国国务卿鲁比奥27日说,预计对伊朗...
联合国针对霍尔木兹海峡局势成立... △联合国秘书长古特雷斯(资料图)当地时间3月27日,联合国秘书长发言人迪雅里克就霍尔木兹海峡局势表示...
缅甸民众在战乱与缺油中挣扎 受战乱与燃油短缺交织影响,近期缅甸多地民生压力持续加剧,从战争难民处境到燃油供应紧张问题均较为突出。...
原来你是这样的河南丨中! 3月24日至27日,央视新闻记者跟随“开局之年看中国·原来你是这样的河南”网络主题宣传活动采风团走进...