Gemini 原生视频嵌入技术问世:无需转录即可实现亚秒级视频检索

谷歌 Gemini Embedding 2 推出原生视频嵌入功能,能够将原始视频直接映射至 768 维向量空间,彻底跳过了语音转录和帧描述等中间步骤。这一突破使得自然语言查询(如“绿色车别停我”)可直接在向量层面与视频片段进行比对。开发者利用该技术构建了基于 ChromaDB 的命令行工具,实现了对数小时视频的快速索引、自然语言搜索及自动剪辑。该工具索引成本约为每小时 2.5 美元,且具备静止帧检测功能,能显著降低安防监控与自动驾驶数据的检索成本。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册