Google 正式发布了首个原生多模态嵌入模型——Gemini Embedding 2。该模型突破了传统单一模态的限制,能够将文本、图像、视频、音频及各类文档统一映射至同一个向量空间中。这一技术升级使得跨媒体类型的语义检索和分类成为现实,开发者可以利用单一的模型实现对不同格式数据的深度理解和搜索。目前,该模型已进入公开预览阶段,为构建具备全感官理解能力的 AI 应用提供了底层支持。
原文链接:Linux.do
Google 正式发布了首个原生多模态嵌入模型——Gemini Embedding 2。该模型突破了传统单一模态的限制,能够将文本、图像、视频、音频及各类文档统一映射至同一个向量空间中。这一技术升级使得跨媒体类型的语义检索和分类成为现实,开发者可以利用单一的模型实现对不同格式数据的深度理解和搜索。目前,该模型已进入公开预览阶段,为构建具备全感官理解能力的 AI 应用提供了底层支持。
原文链接:Linux.do
评论前必须登录!
立即登录 注册