AI 解放双手:VoxSight 利用 Gemini 多模态实现语音操控网页

VoxSight 是一款基于 Google Gemini 多模态技术的 Chrome 扩展,通过语音指令实现对网页的精准操控。用户只需说出“点击搜索”等命令,扩展即可利用截屏分析技术,通过 AI 理解界面并模拟点击、滚动等操作。该工具采用 Chrome MV3 架构与双向流 API,无需网站适配即可运行,并注重隐私保护与无障碍支持。作为 AI Agent 在浏览器端的落地实践,它不仅降低了用户操作门槛,也验证了大模型在视觉理解与交互自动化领域的巨大潜力。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册