谷歌 Gemini Embedding 2 推出原生视频嵌入功能,能够将原始视频直接映射至 768 维向量空间,彻底跳过了语音转录和帧描述等中间步骤。这一突破使得自然语言查询(如“绿色车别停我”)可直接在向量层面与视频片段进行比对。开发者利用该技术构建了基于 ChromaDB 的命令行工具,实现了对数小时视频的快速索引、自然语言搜索及自动剪辑。该工具索引成本约为每小时 2.5 美元,且具备静止帧检测功能,能显著降低安防监控与自动驾驶数据的检索成本。
原文链接:Hacker News
谷歌 Gemini Embedding 2 推出原生视频嵌入功能,能够将原始视频直接映射至 768 维向量空间,彻底跳过了语音转录和帧描述等中间步骤。这一突破使得自然语言查询(如“绿色车别停我”)可直接在向量层面与视频片段进行比对。开发者利用该技术构建了基于 ChromaDB 的命令行工具,实现了对数小时视频的快速索引、自然语言搜索及自动剪辑。该工具索引成本约为每小时 2.5 美元,且具备静止帧检测功能,能显著降低安防监控与自动驾驶数据的检索成本。
原文链接:Hacker News
评论前必须登录!
立即登录 注册