谷歌重磅发布!首款全模态嵌入模型来了,5种媒介无缝打通

谷歌再放大招!近日正式推出Gemini Embedding 2,这是其首款原生多模态嵌入模型,现已通过Gemini API和Vertex AI开启公开预览,彻底打破不同媒介的语义壁垒。

@小土豆呱龙的AI智讯

不同于以往仅支持文本的嵌入模型,这款基于Gemini架构打造的新品,能将文本、图像、视频、音频和文档五大类数据,映射到同一个统一嵌入空间,还能捕捉100多种语言的语义意图,大幅简化多模态应用的开发流程。

其核心优势十分突出:文本支持最高8192个输入token,单次请求可处理6张PNG/JPEG图像、120秒MP4/MOV视频,音频无需转录可直接嵌入,还能直接处理6页内的PDF文档。更亮眼的是,它支持多模态混合输入,能精准捕捉不同媒介间的复杂关联。

模型还融入嵌套表示学习技术,默认输出3072维向量,可灵活缩减至1536维、768维,帮助开发者平衡性能与存储成本。在文本、图像、视频任务中,它表现超越主流模型,还新增强大语音能力,适配RAG、语义搜索、数据聚类等多种场景。

#ai新闻# #模型# #AI发展动向#

展开阅读全文

更新时间:2026-03-13

标签:科技   重磅   媒介   模型   语义   文本   图像   视频   音频   文档   数据   转录

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top